太卷了,智能駕駛在國(guó)內(nèi)的落地發(fā)展太迅速了,從體驗(yàn)功能端,大家開(kāi)城大戰(zhàn)打完了之后就進(jìn)入點(diǎn)到點(diǎn)的落地戰(zhàn),點(diǎn)到點(diǎn)弄完了之后肯定Robotaxi大戰(zhàn);而在硬核的軟件技術(shù)端,端到端大模型戰(zhàn)在華為這個(gè)月宣布急攻端到端大模型的信息下,已經(jīng)算是進(jìn)入焦灼狀態(tài)。
那么端到端大模型之后呢?
或許最近不少苗頭已經(jīng)透露 VLM (vision language model 具《智能駕駛技術(shù)演進(jìn)與未來(lái)挑戰(zhàn):從目標(biāo)物識(shí)別到大模型上車(chē)》體可以點(diǎn)擊之前文章了解)之后的VLA?(vision language action)會(huì)是2025年國(guó)內(nèi)的自動(dòng)駕駛行業(yè)全面宣傳和競(jìng)爭(zhēng)的重點(diǎn),各家會(huì)開(kāi)卷端到端大模型 2.0。
VLA其實(shí)不但可以應(yīng)用于自動(dòng)駕駛,它其實(shí)是自動(dòng)駕駛車(chē)輛的大類(lèi) - 智能機(jī)器人,具身智能的基礎(chǔ),那么也可以理解為什么現(xiàn)在人行機(jī)器人產(chǎn)業(yè)。具身智能會(huì)火起來(lái)了,其實(shí)機(jī)器人比汽車(chē)更容易,機(jī)器人出問(wèn)題可能不會(huì)有生命危險(xiǎn),但汽車(chē)出問(wèn)題是會(huì)有生命危險(xiǎn),甚至公共安全的生命危險(xiǎn)。
本文整理 VLA 相關(guān)論文以及其在汽車(chē)行業(yè)發(fā)展和應(yīng)用信息,希望能大家一些科普和前瞻信息。
什么是 VLA 模型?
VLA 有哪些優(yōu)點(diǎn)?
實(shí)驗(yàn)室里面的 VLA 有哪些進(jìn)展?
落地應(yīng)用 VLA 有哪些挑戰(zhàn)?
目前有哪些車(chē)企在布局?
VLA會(huì)是自動(dòng)駕駛最終的歸宿嗎?
什么是?VLA 模型
首先,我們先回顧視覺(jué)語(yǔ)言模型 (VLM), 它是一種機(jī)器學(xué)習(xí)模型,可以處理視覺(jué)信息和自然語(yǔ)言。它們將一張或多張圖像作為輸入,并生成一系列標(biāo)記,這些標(biāo)記通常表示自然語(yǔ)言文本。
VLM 的奇妙之處是在人類(lèi)智慧結(jié)晶互聯(lián)網(wǎng)上的圖像和文本數(shù)據(jù)上進(jìn)行訓(xùn)練的,VLM 類(lèi)似于三體中的智子,吸收了人類(lèi)語(yǔ)言文字的智慧,能看懂和推理圖片內(nèi)容。
而 VLA 模型,就是在 VLM 基礎(chǔ)上利用機(jī)器人或者汽車(chē)運(yùn)動(dòng)軌跡數(shù)據(jù),進(jìn)一步訓(xùn)練這些現(xiàn)有的 VLM,以輸出可用于機(jī)器人或者汽車(chē)控制的文本編碼動(dòng)作。
這些經(jīng)過(guò)進(jìn)一步訓(xùn)練的 VLM 被稱為視覺(jué)-語(yǔ)言-動(dòng)作 (VLA) 模型。通過(guò)結(jié)合視覺(jué)和語(yǔ)言處理,VLA 模型可以解釋復(fù)雜的指令并在物理世界中執(zhí)行動(dòng)作。
上面Google Deepmind RT-2的圖片,非常好的圖像化解釋VLA,VLA(RT-2)?= VLM +?機(jī)器運(yùn)動(dòng)數(shù)據(jù)(RT-1)。
VLA 有哪些優(yōu)點(diǎn)
首先,VLA是一個(gè)端到端大模型,所以大模型該有的優(yōu)點(diǎn),他都有。另外,從視覺(jué)到執(zhí)行,類(lèi)似可推理性,可解釋性都有非常大的優(yōu)勢(shì),這個(gè)可以查看之前文章了解《采用 ChatGPT 類(lèi)似大模型作為自動(dòng)駕駛算法核心的 - Waymo 的端到端多模態(tài)算法 EMMA》。
其次,它具有通用型,未來(lái)所有“智能機(jī)器設(shè)備”都可以統(tǒng)一采用這套大模型算法,通過(guò)微調(diào)可以實(shí)現(xiàn),不管是汽車(chē),飛行設(shè)備,乃至任何智能機(jī)器人都可以通用。所以這就是為什么可以看到現(xiàn)在的新勢(shì)力,上天下地,機(jī)器人都搞的原因,他們明白通用AI可以加任何機(jī)械設(shè)備從而變成人工智能設(shè)備,實(shí)現(xiàn)phycial AI(也有人叫具身智能,我更愿意叫他phycial AI)而不是僅僅現(xiàn)在的digital AI。
VLA這些通用系的模型在數(shù)據(jù)量、計(jì)算資源和模型復(fù)雜度的邊界上表現(xiàn)出持續(xù)的性能提升,因?yàn)橛辛俗匀晃淖终Z(yǔ)言的人類(lèi)智慧為底座,所以可以極大的減少重復(fù)的數(shù)據(jù),計(jì)算資源,同時(shí)降低模型復(fù)雜度。
實(shí)驗(yàn)室里面的 VLA 有哪些進(jìn)展
當(dāng)前AI的催生,基本都來(lái)自于著名學(xué)術(shù)機(jī)構(gòu)高校和知名公司的創(chuàng)新實(shí)驗(yàn)。2023年7月28日,谷歌DeepMind推出了全球首個(gè)用于控制機(jī)器人的視覺(jué)語(yǔ)言動(dòng)作(VLA)模型 RT-2 也就是上文解釋 VLA 借用的那個(gè)圖片。
RT-2 以 Google 的 VLM PaLI-X 和 PALM-E 為基礎(chǔ),這些模型使用 DeepMinds 在開(kāi)發(fā) RT-1 模型期間收集的機(jī)器人軌跡數(shù)據(jù)進(jìn)行微調(diào)。該模型經(jīng)過(guò)微調(diào),通過(guò)將機(jī)器人動(dòng)作表示為文本標(biāo)記來(lái)輸出機(jī)器人動(dòng)作。這種獨(dú)特的方法使模型能夠從自然語(yǔ)言響應(yīng)和機(jī)器人動(dòng)作中學(xué)習(xí),從而使其能夠執(zhí)行各種任務(wù)。
RT-2 模型的令人印象深刻的泛化能力。該模型在新的物體、背景和環(huán)境中表現(xiàn)出顯著改善的性能。它可以解釋機(jī)器人訓(xùn)練數(shù)據(jù)中不存在的命令,并根據(jù)用戶命令執(zhí)行基本的推理。推理能力是底層語(yǔ)言模型采用思路鏈推理能力的結(jié)果。該模型推理能力的例子包括弄清楚要拿起哪個(gè)物體用作臨時(shí)錘子(一塊石頭),或者哪種飲料最適合疲憊的人(能量飲料)。這種程度的泛化是機(jī)器人控制領(lǐng)域的一大進(jìn)步。RT-2目前不是開(kāi)源的,也就是大家無(wú)法基于他去創(chuàng)新和修改,但他的出現(xiàn)激勵(lì)了當(dāng)前智能機(jī)器人行業(yè)的發(fā)展,給了大家信心。
另一個(gè)比較知名的是 OpenVLA 模型,它是由來(lái)自斯坦福大學(xué)、加州大學(xué)伯克利分校、谷歌 Deepmind 和豐田研究院的研究人員組成的團(tuán)隊(duì)發(fā)起。他是一種基于 LLM/VLM 構(gòu)建的視覺(jué)/語(yǔ)言動(dòng)作模型,用于具身機(jī)器人和行為學(xué)習(xí)(此基礎(chǔ)模型是使用 Llama-7B、DINOv2 和 SigLIP 的 Prismatic VLM)。
OpenVLA 模型不是使用圖像字幕或視覺(jué)問(wèn)答,而是根據(jù)用于控制機(jī)器人的攝像頭圖像和自然語(yǔ)言指令生成動(dòng)作標(biāo)記。動(dòng)作標(biāo)記是從文本標(biāo)記器詞匯表中保留的離散標(biāo)記 ID,這些標(biāo)記映射到連續(xù)值,并根據(jù)每個(gè)機(jī)器人的運(yùn)動(dòng)范圍進(jìn)行歸一化。
通過(guò)微調(diào)預(yù)訓(xùn)練的Prismatic-7B VLM 來(lái)訓(xùn)練 OpenVLA 。模型由三個(gè)關(guān)鍵元素組成:
- 融合視覺(jué)編碼器一般也叫ViT(Vision transformer),由 SigLIP 和 DinoV2 主干組成,其中DinoV2主要是為了增加對(duì)于空間的理解,將圖像輸入映射到多個(gè)“圖像塊嵌入”,可以簡(jiǎn)單理解將視覺(jué)編碼成語(yǔ)言。投影儀MLP Projector,這個(gè)組件可以獲取視覺(jué)編碼器的輸出嵌入并將其映射到大型語(yǔ)言模型的輸入空間,可以理解為這是個(gè)中間人,他能將編碼的語(yǔ)言和大語(yǔ)言模型對(duì)接上。Llama 2 7B作為語(yǔ)言模型的主干,根據(jù)對(duì)接上的信息,預(yù)測(cè)標(biāo)記化的輸出動(dòng)作。這些標(biāo)記被解碼為可直接在機(jī)器人上執(zhí)行的連續(xù)輸出動(dòng)作。
OpenVLA 是開(kāi)源的,目前不少公司應(yīng)該都基于他在進(jìn)行研究,來(lái)找VLA應(yīng)用和商業(yè)落地的方法。以上兩個(gè)為影響比較大的,除了上面 VLA 還有不少其他的例如 Umass的3D-VLA,美的集團(tuán)的Tiny-VLA等等。
落地應(yīng)用 VLA 有哪些挑戰(zhàn)
VLA 那么好,是不是立馬可以在生活和商用中用起來(lái)?其實(shí)上面RT-2/Open VLA基本上和大模型一樣都是上Billions十億的參數(shù)。
模型大,需要邊緣算力大,就拿Open VLA 的7B 的參數(shù)模型來(lái)看,推理過(guò)程中速度很慢,需要對(duì)大量機(jī)器人數(shù)據(jù)進(jìn)行大量預(yù)訓(xùn)練,這使得實(shí)際部署變得困難。所以,實(shí)時(shí)運(yùn)行大型 VLA 模型的計(jì)算成本很高,需要進(jìn)行更多研究來(lái)優(yōu)化其推理速度。
此外,目前可用于微調(diào)的開(kāi)源 VLM 模型有限。未來(lái)的研究應(yīng)側(cè)重于開(kāi)發(fā)實(shí)現(xiàn)更高頻率控制的技術(shù),并使更多 VLM 模型可用于訓(xùn)練 VLA 模型。Phycical AI 需要與人類(lèi)世界互動(dòng),那么實(shí)時(shí)高頻精準(zhǔn)的運(yùn)動(dòng)是必須的,機(jī)器人可能要求的響應(yīng)可以低,但一般可用的都需要達(dá)到以 30-50 Hz 運(yùn)行的執(zhí)行;而汽車(chē)智能汽車(chē)的電控底盤(pán)一般的執(zhí)行響應(yīng)都達(dá)到100Hz。所以,這里還有很長(zhǎng)的路要走。
最后,其實(shí) VLA 應(yīng)用的難點(diǎn)還有匹配語(yǔ)言描述和駕駛行為或者機(jī)器人動(dòng)作的訓(xùn)練。
目前VLA 模型應(yīng)用于自動(dòng)駕駛的一個(gè)主要障礙是缺乏能夠有效結(jié)合視覺(jué)數(shù)據(jù)與語(yǔ)言描述和駕駛行為的大規(guī)模數(shù)據(jù)集?,F(xiàn)有數(shù)據(jù)集往往在規(guī)模和全面注釋方面存在不足,尤其是對(duì)于語(yǔ)言,這通常需要費(fèi)力的人工操作。這限制了能夠處理現(xiàn)實(shí)世界駕駛復(fù)雜性的穩(wěn)健 VLA 模型的開(kāi)發(fā)和評(píng)估。所以這些都是目前 VLA 工程落地,需要攻克的問(wèn)題。
目前有哪些車(chē)企在布局?
目前準(zhǔn)確來(lái)講,應(yīng)用VLA的應(yīng)該屈指可數(shù),甚至沒(méi)有,但大批車(chē)企以及自動(dòng)駕駛企業(yè)布局中。
我們之前文章《采用 ChatGPT 類(lèi)似大模型作為自動(dòng)駕駛算法核心的 - Waymo 的端到端多模態(tài)算法 EMMA》中講到的EMMA,就是Waymo內(nèi)部團(tuán)隊(duì)在創(chuàng)新和測(cè)試探索的 VLA。國(guó)外的創(chuàng)業(yè)公司Wayve,他的主要投資方是微軟和軟銀,走的是提供L4軟件算法的路線,目前測(cè)試車(chē)隊(duì)已經(jīng)從歐洲擴(kuò)展到北美,與Uber達(dá)成合作協(xié)議,未來(lái)可能進(jìn)入U(xiǎn)ber平臺(tái)。他在開(kāi)始就站位采用通用人工智能來(lái)解決自動(dòng)駕駛,所以可以看到之前就采用LLM,之后采用VLM,目前有消息其正在采用類(lèi)似于VLA的模型。
國(guó)內(nèi),元戎啟行在上個(gè)月宣布下一步計(jì)劃使用VLA,計(jì)劃在英偉達(dá)Thor芯片上進(jìn)行開(kāi)發(fā),不過(guò)Thor推遲到明年年中量產(chǎn),高性能Thor估計(jì)年底,所以估計(jì)中國(guó)的VLA大概率在明年中旬聲量巨大,一起卷。
另外,就是理想,這個(gè)我們之前文章《智能駕駛技術(shù)演進(jìn)與未來(lái)挑戰(zhàn):從目標(biāo)物識(shí)別到大模型上車(chē)》中講過(guò)理想在上半年就開(kāi)始推進(jìn)VLM,現(xiàn)在其車(chē)上智駕已經(jīng)采用VLM,那么接下來(lái)肯定是朝著VLA進(jìn)發(fā)。
小鵬,目前沒(méi)有信息,但是看小鵬科技產(chǎn)品的布局,從機(jī)器人,汽車(chē)到飛行基本上也賭的是人工智能,如果不走通用人工智能的方向,那么顯然戰(zhàn)略失誤,所以估計(jì)在研發(fā)中或者布局中。
華為,比較特殊,有自己的閉環(huán)和中國(guó)特色發(fā)展,其200TOPs的MDC顯然在規(guī)則化,小模型的算法方面做的是一流,車(chē)輛運(yùn)動(dòng)控制遙遙領(lǐng)先,但最近估計(jì)也是感覺(jué)端到端是未來(lái),這個(gè)月的動(dòng)態(tài)顯示其急攻一段式端到端,那么估計(jì)其應(yīng)用VLA也不會(huì)很長(zhǎng)。
至于,蔚來(lái)汽車(chē)昨天搞了NIO Day發(fā)布了一大堆東西,由于沒(méi)有邀請(qǐng)我,我得說(shuō)說(shuō)蔚來(lái)的問(wèn)題了,開(kāi)玩笑,蔚來(lái)一直是我喜愛(ài)而且認(rèn)為有格局和格調(diào)的品牌,但蔚來(lái)有點(diǎn)不像新勢(shì)力了,他反過(guò)頭來(lái)在追隨傳統(tǒng)汽車(chē)的末日黃昏,蔚來(lái)在硬件端是在準(zhǔn)備,但是在智能駕駛軟件端,目前缺少相關(guān)信息。
VLA 會(huì)是自動(dòng)駕駛最終的歸宿嗎
很難說(shuō),不過(guò),自動(dòng)駕駛采用AI的大方向是既定的,但是AI的發(fā)展太迅猛了,從采用CNN識(shí)別物體到Transformer BEV 構(gòu)建時(shí)空關(guān)系應(yīng)用大概也就是幾年,但從端到端大模型演化到采用通用人工智能的VLM卻是一年之內(nèi)。那么對(duì)應(yīng)的從文字LLM 到視覺(jué)的VLM再到未來(lái)是不是空間Spatial 人工智能的大力發(fā)展?AI 還是一個(gè)快速發(fā)展的小孩,都有可能!
*未經(jīng)準(zhǔn)許嚴(yán)禁轉(zhuǎn)載和摘錄-參考資料:
2024_Kira_ECCV_FOCUS.pdf -
Google deepmind RT-2 .pdf -?Anthony Brohan, Noah Brown等
OPEN VLA .pdf -?Moo Jin Kim?,1 Karl Pertsch?等
2024-IB-Introduction-Embodied-AI-Wayve.pdf
加入我們的知識(shí)星球可以下載包含以上參考資料的公眾號(hào)海量參考資料。