加入星計劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴散
  • 作品版權(quán)保護
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
    • Mobileye的自動駕駛信念
    • Mobileye 的 CAIS 方案
    • Mobileye 的 CAIS 能否挑戰(zhàn)端到端大模型
  • 相關推薦
  • 電子產(chǎn)業(yè)圖譜
申請入駐 產(chǎn)業(yè)圖譜

被逼墻角的Mobileye,祭出 CAIS 大旗,挑戰(zhàn)端到端大模型智能駕駛

10/08 10:20
1109
閱讀需 20 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

Mobileye 可以算是中外新勢力智能駕駛的啟蒙老師。

特斯拉第一代智能駕駛使用Mobileye芯片和視覺算法,在 2015款Model S 車型中實現(xiàn)L2+級別的Autopilot;中國新勢力蔚來小鵬第一代L2+ 智能駕駛NIO Pilot 和 Xpilot以及第一代L2++ 領航輔助NOP和NGP都是依賴?Mobileye 芯片和視覺算法方案。

而現(xiàn)在,特斯拉走上了硬件和算法自研的端到端,中國新勢力高階智能駕駛都擁抱英偉達了,就連與Mobileye走的最近的吉利極氪也擁抱英偉達了,都在追逐著算力為王的端到端大模型。

可以看到 Mobileye的季度財報,2024年已經(jīng)跌回幾年前的水平,但此刻的智能駕駛已成為AI人工智能落地最大的產(chǎn)業(yè)之一,在全球卻是如火如荼的發(fā)展。

而此刻的 Mobileye 算是被逼到墻角了。最近?Mobileye 在其?Driving AI 2024發(fā)布會上祭出其Compound AI Systems(CAIS)大旗,挑戰(zhàn)大算力下的端到端大模型智能駕駛。

CAIS 是今年年初全球人工智能前五的學術研究機構(gòu) --?伯克利人工智能研究 (BAIR) 實驗室首次提出的“復合人工智能系統(tǒng)”這一術語,但其實CAIS在人工智能領域應用廣泛,也在蓬勃發(fā)展。

所以本文基于發(fā)布會信息整理,結(jié)合AI相關知識對Mobileye 的 Compound AI Systems (CAIS )復合人工智能方案進行分享。希望給大家?guī)硪恍┬畔?,最后歡迎投票留言討論Mobileye 這個方案是否能夠奏效?

Mobileye的自動駕駛信念

對于智能駕駛應用的終極未來形態(tài)?Mobileye 表示想要打造一個真正的自動駕駛,它的指標是MTBF(Mean time between failures平均故障間隔時間,也就是多久出現(xiàn)一次故障?)。?Mobileye表示其與汽車制造商的合作中,MTBF 目標是 10的7次方小時的駕駛時間。對于公司來講,需要一個可持續(xù)的商業(yè)模式,確保達到目標同時實現(xiàn)公司的盈利。

所以 Mobileye 將自己的方案和谷歌Waymo以及特斯拉放一起比較;

其中谷歌和Mobileye采用CAIS方案,區(qū)別是谷歌主要依賴激光雷達,Mobileye主要依賴攝像頭,Waymo已經(jīng)證明了實現(xiàn)了滿足MTBF KPI的自動駕駛,但是成本和模塊化不行,地區(qū)泛化能力有待驗證。

而特斯拉的端到端純視覺方案,從成本,模塊化,地區(qū)泛化能力都非常優(yōu)秀。但是滿足自動駕駛MTBF KPI卻是一個大大的問號,特斯拉最近的 V12版 FSD 的公開數(shù)據(jù)顯示每次關鍵干預大約行駛 300 英里,相當于 MTBF 大約為 10 小時,與目標 MTBF 相差 6 個數(shù)量級。

所以 Mobileye 表示他對于FSD以及自己方案能否實現(xiàn)MTBF都打上問號,當然其實Mobileye潛臺詞是自己的L2以及以下的系列能夠?qū)崿F(xiàn)MTBF,所以暗示其 CAIS 能夠?qū)崿F(xiàn)。其實現(xiàn)有L2以及以下系列它的ODD 也就是可用范圍太小了,特斯拉FSD以及中國新勢力的L2++范圍就異常巨大,基本上等同于全部了。按照 Mobileye 的思路,他的 CAIS 現(xiàn)有產(chǎn)品與 Tesla 的端到端方案的FSD進行對比MTBF其實不公平。

端到端大模型方案的問題端到端大模型方案,數(shù)據(jù)的輸入到一個大模型算法然后輸出最終結(jié)果,對于自動駕駛基本就是從圖像的光子到汽車的控制。

前提是,沒有任何Glue code也就是,在計算機編程中,粘合代碼是一種允許組件互操作的代碼,在智能駕駛中你可以理解為沒有人類規(guī)則的代碼來影響輸入與輸出。僅憑無監(jiān)督,不需要標注的數(shù)據(jù)訓練就可以實現(xiàn)足夠的MTBF。

現(xiàn)實是,端到端是將Glue code轉(zhuǎn)變到線下,需要人類來挑選高質(zhì)量正確的數(shù)據(jù)用于訓練。如果沒有的話會學習很多常見但錯誤的行為,卻沒有學習到正確但稀少的行為。更可能引發(fā)人工智能?“AV alignment”?價值對齊的問題。端到端大模型的輸出結(jié)論很可能不真實,例如以下三個方面:

Calculator計算器 - LLM大語言模型并不是計算專家,人類通過句子學習語言和概念,大多數(shù)情況下,語義理解都可以通過這種方式很好地建立起來。但數(shù)學的運作方式并不完全相同。數(shù)學或算術在語言中并不是高度編碼的。基于大語言模型的端到端,從數(shù)據(jù)中進行端到端學習往往會遺漏重要的抽象概念,因此不能很好地概括和提取結(jié)論。

所以,目前大模型ChatGPT也采用CAIS進行調(diào)用計算器等專門模型和工具。那?Calculator 和自動駕駛什么關系呢?自動駕駛中所有的碰撞安全都需要計算距離,時間等來實現(xiàn)避障。

人工智能的難題,捷徑學習(Shortcut learning problem)。捷徑是在標準基準上表現(xiàn)良好但無法轉(zhuǎn)移到更具挑戰(zhàn)性的測試條件(例如現(xiàn)實世界場景)的決策規(guī)則。打個比方如果我們用典型環(huán)境中的奶牛圖像(通常是在綠色草地上或草地前)來訓練深度神經(jīng)網(wǎng)絡,那么神經(jīng)網(wǎng)絡可能無法識別奶牛本身的一般外部特征,而只是將綠色與奶牛聯(lián)系起來。如果基于這種神經(jīng)網(wǎng)絡的圖像識別軟件面對藍色背景上的奶牛,那么它很可能不會將其識別為奶牛。相反,綠色壁紙前的貓可能會被錯誤地識別為奶牛。

因此,AI 走了捷徑。它沒有真正開發(fā)出識別圖像的能力,而只是根據(jù)訓練數(shù)據(jù)中存在的相關性學習了錯誤的因果關系。對于自動駕駛端到端算法如何保證端到端大模型沒有進行捷徑學習是個難題。即使攝像頭,雷達,激光雷達多傳感器融合,也就是現(xiàn)在講的前融合,當不同的輸入模態(tài)具有不同的樣本復雜度時,端到端隨機梯度在利用所有模式的優(yōu)勢方面存在困難,會導致計算時間過長。

而 CAIS 可以按每種傳感器對系統(tǒng)進行可分解訓練,然后進行高級融合,應該就是現(xiàn)在講的后融合,Mobileye 分享到其?Primary-Guardian-Fallback (PGF)融合方式。

長尾問題,對于長尾問題有兩種假設,在樂觀的情況下,就是類似于長尾有些事情概率相對較大,有些非常小,在悲觀的情況下,所有罕見的長尾問題其實概率都一樣非常小。其實具體怎么樣誰也不知道,但這個問題會影響自動駕駛對于長尾問題解決的思路。

其實,特斯拉FSD V12已經(jīng)是端到端大模型,按照邏輯大模型積累數(shù)據(jù)越多那么越好,但是根據(jù)Teslafsdtracker的數(shù)據(jù)可以看到,特斯拉的V12之后的版本并沒有體現(xiàn)這個觀點。

所以,端到端大模型這種,只需要喂足夠的數(shù)據(jù)那么算法軟件就會越來越優(yōu)秀的觀點缺少證據(jù)。

Mobileye 的 CAIS 方案

首先,Mobileye擺出了機器學習中需要考慮?Bias 偏差和?Variance 方差的妥協(xié)。Bias 偏差(“近似誤差”),由于學習到太多的約束,導致存在約束的盲區(qū),學習系統(tǒng)無法反映現(xiàn)實的全部豐富性,這個可以理解為懂得越多其實yVariance 方差(“泛化誤差”),由于學習以及訓練的數(shù)據(jù)較少,就直接根據(jù)現(xiàn)有數(shù)據(jù)總結(jié),學習系統(tǒng)對觀察到的數(shù)據(jù)過度擬合,無法泛化到看不見的例子。

Mobileye 想要表達的是,Mobileye 的方案將會采取合適的數(shù)據(jù)訓練,而不是多多益善。

所以Mobileye 給出的 CAIS 方案主要包括:RSS 是我們之前文章《從2022 CES 看Mobileye 自動駕駛產(chǎn)品技術以及戰(zhàn)略(誰說算力是唯一標準)》中講到的“Responsibility-Sensitive Safety” (RSS) 模型,它可以通過設立人為的準則來解決人工智能“AV alignment”?價值對齊的問題。感知/規(guī)控/執(zhí)行,分析計算等抽象層;從感知,算法,融合多方面冗余來確保實現(xiàn)MTBF。

其中感知和規(guī)控將采用 Mobileye 極致高效的AI算法和硬件芯片;冗余方面將采用 Mobileye 的 PGF 高階融合。

Mobileye 的 PGF 高階融合是一種將多數(shù)規(guī)則推廣到非二元決策的一般方法,用于冗余傳感器和外部輸入分析之后的信息決策,傳統(tǒng)冗余信息的決策機制是少數(shù)服從多數(shù)。對于感知和規(guī)控 Mobileye 宣稱其采用極致高效的AI 算法?;赥ransformer 的GPT最開始主要來自于人類語言文字的算法,它可以標記 Tokenize 所有的東西,然后利用自動回歸生成新的東西,例如在語言中它標記所有的單詞,采用自動回歸 Auto-regressive 預測下一個單詞的出現(xiàn)概率,再預測下一個單詞出現(xiàn)的概率,最后生成句子或者文字內(nèi)容。

目前 Transformers 的類似算法已經(jīng)在 AI 領域確立了王者地位,感知以及環(huán)境輸入信息被Tokenized,然后Auto-regressive 生產(chǎn)新的數(shù)字信息用于計算和決策,甚至輸出。所以端到端的方案中,只需要有足夠的數(shù)據(jù),和強大的算力,基本上都能產(chǎn)生貼近真實答案的token算法組合,差別只是token多與少的問題,也就決定算法復雜和需要算力的多少。在汽車AI領域里面應用廣泛的語音和圖視頻AI,和上面講到的語音機制一樣類似,所以 Mobileye 的自動駕駛算法也一樣采用,不過?Mobileye 表示其優(yōu)化或者靈活的運用,對傳統(tǒng) Transformer 應用改良的 STAT: Sparse Typed Attention。目前行業(yè)內(nèi)包括特斯拉的端到端,第一步是用CNN對每畫幅的圖片進行處理創(chuàng)立整個算法的Backbone,整個算法都基于CNN特征進行傳遞處理。Mobileye 發(fā)現(xiàn)這樣的算法需要非常大的算法和算力,例如目前800萬的攝像頭,按照7個攝像頭用作周視,另外目前通用對攝像頭采樣是1秒鐘采樣10次,然后將這些圖片切割成20*15個像素進行boken編碼,按照Mobileye 的算法這就需要 100Tops,配合大流量數(shù)據(jù)輸入與輸出。所以Mobileye 對傳統(tǒng) Transformer 應用改良的 STAT: Sparse Typed Attention。主要就是對token進行分類,類似于公司組織一樣分部門和科室。

Mobileye?采用Parallel Auto-Regressive (PAR)的方式,原來transformer下的tokend 是人人平權(quán),大家都互相交流溝通,現(xiàn)在token分類,只允許同類的領導之間進行交流和溝通產(chǎn)生結(jié)論,所以mobileye號稱實現(xiàn)比原來高效100倍。

當然,這種算法的缺點和公司組織一樣,創(chuàng)造了更多的層級,不同層級必須使用不同的設施和組織方法,所以 Mobileye 在其芯片上采用了5種不同功能和架構(gòu)的內(nèi)核分別處理算法。

    MIPS-通用CPUMPC-專門用于線程級并行的CPUVMP-超長指令寬度(VLIW)-單指令多數(shù)據(jù)(SIMD);專為定點算法的數(shù)據(jù)級并行性而設計(例如,將12位原始圖像收斂為一組不同分辨率和色調(diào)圖的8位圖像);基本上,對整數(shù)向量執(zhí)行操作PMA-粗粒度可重構(gòu)陣列(CGRA);為數(shù)據(jù)級并行設計,包括浮點運算;基本上,對浮點數(shù)向量執(zhí)行操作XNN-專注于深度學習的固定函數(shù):卷積、矩陣乘法/完全連接和相關激活后處理計算:例如CNN、FCN、Transformer的優(yōu)秀處理表現(xiàn)。

根據(jù)這些軟硬算法的結(jié)合, Mobileye 表示其最新的 EyeQ6H 雖然只有34 TOPS (int8)是英偉達Orin x的 1/8 但是跑圖形算法ResNet50的能力卻是英偉達Orin x的 1/2 ,所以 Mobileye 表示算力并不能夠很好的評價芯片的計算能力。

最后 Mobileye 喊出他的 CAIS 是極致的AI 高效率來叫板大算力下的端到端。

除此之外,對于數(shù)據(jù)方面,端到端就是一個大胖子來什么吃什么,食量大,但其實這里會有問題,需要強大的數(shù)據(jù)采集和算力處理,并不高效。所以其實可以看到特斯拉去年從Luminar購買 2,000 臺激光雷達,Mobileye猜測大概率是為了創(chuàng)建監(jiān)督訓練的地面實況 (GT) 數(shù)據(jù),而 Mobileye 也在做這個事情,做這個事情的難點就是需要標注數(shù)據(jù)。Mobileye 表示其采用在大型無監(jiān)督數(shù)據(jù)上訓練基礎模型然后監(jiān)督對少量標簽的微調(diào)的方法來做地面實況 (GT) 數(shù)據(jù)。最后,在商業(yè)方面,Mobileye確保其整套方案模塊化,從而能滿足不同自動化需求的高效開發(fā),保證發(fā)展有保障,未來有路徑。

Mobileye 的 CAIS 能否挑戰(zhàn)端到端大模型

Mobileye 算是在獨特的方案中堅持到底,其方案提供軟硬結(jié)合的一整套方案,這種?CAIS?方案無疑是高效的,它更講究專用性,根據(jù)行業(yè)的特點進行深入分析定制端到端大模型的智能駕駛應該算是通用人工智能的一個應用分支,它的帶領肯定是英偉達等大算力巨頭,他講究通用性和大算力。

所以,從技術上各有優(yōu)缺點。

目前國內(nèi)一大通采用英偉達芯片的肯定是走端到端大模型的智能駕駛,接下來各家紛紛構(gòu)建自己芯片體系的例如蔚來,理想,小鵬,momenta大概率不會擺脫這個影子,但有可能長期會分化;特殊的華為應該是走 CAIS 的方案,畢竟軟硬都有,而且能力特強,在強大的背景下走出自己的一條路;比較尷尬的是地平線了,今年年初的百人會上余凱表示“十年以后連L3都不會真正實現(xiàn)”其實這不過是沒有找到自己大算力和軟硬定位的嘆息。

最后,那從商務上來講,Mobileye 的?CAIS?高階智能駕駛在目前的中國會比較難,它太具有唯一性了,在主機廠主導的供應商體系里面唯一性太可怕了,如果?Mobileye 沒有打通商務問題,可能永遠留在 L2以及以下的市場,無法分享高階智能駕駛快速發(fā)展的蛋糕。

未經(jīng)準許嚴禁轉(zhuǎn)載和摘錄-參考資料:

Driving AI 2024 Navigating the path to autonomous mobility?-?Mobileye

Learning Token-Based Representation for Image Retrieval -?Hui Wu1 , Min Wang2*, Wengang Zhou1,2*, Yang Hu1 , Houqiang Li1,2

從模型到復合人工智能系統(tǒng)的轉(zhuǎn)變 -?Matei Zaharia、Omar Khattab、Lingjiao Chen、Jared Quincy Davis、Heather Miller、Chris Potts、James Zou、Michael Carbin、Jonathan Frankle、Naveen Rao、Ali Ghodsi

加入Vehicle VIP 知識星球獲取智能新能源汽車以及科技海量參考資料。

相關推薦

電子產(chǎn)業(yè)圖譜