加入星計劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴散
  • 作品版權(quán)保護
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
    • 冰山之下,汽車行業(yè)的研發(fā)挑戰(zhàn)
    • 端到端是算力軍備賽,也是人才競賽
    • 解決端到端的安全底線:智駕地圖與視覺語言模型
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請入駐 產(chǎn)業(yè)圖譜

端到端大模型席卷廣州車展,智駕行業(yè)的一次技術(shù)大躍遷

11/22 10:20
1291
閱讀需 13 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

作者 | 德新?苗嶺,編輯 | 德新

智駕行業(yè)的一次技術(shù)大躍遷

作為歲末壓軸的一場大型車展,沒有其他展會比廣州車展更能揭示未來一年汽車行業(yè)的趨勢。除了新能源車滲透率繼續(xù)如火如荼地攀升之外,「端到端城區(qū)智駕」成為這屆車展上的核心主題。如果說半年前的北京車展,端到端還只是頭部車企對新技術(shù)的探索,那到了廣州車展,包括外資與合資車企在內(nèi)幾乎所有廠商都在擁抱這一技術(shù)路線。汽車行業(yè)正迎來一次智駕技術(shù)的升級躍遷。

端到端大模型本質(zhì)是以參數(shù)規(guī)模更大的模型,取代過去「感知以小模型為主 + 決策規(guī)劃以規(guī)則代碼為主」的技術(shù)架構(gòu)。它減少了小模型之間信息傳遞的損失,從而使系統(tǒng)能夠獲取更加豐富的動靜態(tài)目標(biāo)信息,并且直接從駕駛數(shù)據(jù)中學(xué)習(xí)到合理的開車方法。

行業(yè)推動城市NOA量產(chǎn)已有兩三年時間。但衡量城市NOA的關(guān)鍵指標(biāo)——MPI(平均接管里程),在今年上半年大概也只有10公里以內(nèi),也就是每行駛10公里至少需要用戶接管1次。用戶體驗不佳是城市NOA還沒有開始大規(guī)模普及的主要原因。基于端到端與大模型的技術(shù),成為過去一年提升智駕MPI的關(guān)鍵利器。特斯拉在去年的FSD V12.3版本中首先引入了這一技術(shù)。國內(nèi)汽車行業(yè)也很快展開探索,理想、小鵬等車企,以及博世、華為、地平線、Momenta、元戎、卓馭等廠商目前都在研發(fā)端到端智駕版本。

許多行業(yè)大咖如英偉達CEO黃仁勛、小鵬汽車CEO何小鵬、長城汽車CTO吳會肖、騰訊智慧出行副總裁劉澍泉、元戎啟行CEO周光等人在這年陸續(xù)體驗了特斯拉的V12版本,對FSD給出了高度評價。理想、小鵬在近期的端到端版本上,也取得突飛猛進的進展。據(jù)理想官方數(shù)據(jù),其從7月初到11月的「端到端智+VLM」智駕版本,MPI約有3.5倍提升;而小鵬也稱其智駕系統(tǒng)上了端到端不到半年,擬人程度提升4倍以上。

在國內(nèi)大舉投入高階智駕開發(fā)的博世,也將在今年底推出無圖城市NOA,并在明年上馬一段式端到端方案。這家國際Tier 1巨頭剛剛在最近與騰訊簽署了深化合作,加速下一階段端到端大模型以及世界模型的開發(fā)。

眼下的時點,可以說國內(nèi)外的頭部廠商都成功驗證了端到端大模型是提升城區(qū)智駕表現(xiàn)的正確路徑,并且行業(yè)還遠遠沒有觸及到「Scaling Law」——數(shù)據(jù)規(guī)模增長帶來性能提升——的上限。

冰山之下,汽車行業(yè)的研發(fā)挑戰(zhàn)

端到端大模型帶來的城市NOA體驗以及MPI的提升是顯性的。而新一代智駕的研發(fā)本身也發(fā)生了巨大的變化,并且95%以上是「隱藏在水面之下的冰山」。因此不少廠商今年在圍繞AI與大模型進行組織架構(gòu)變革。首先,從驅(qū)動數(shù)據(jù)迭代的「燃料」——數(shù)據(jù)開始。博世智能駕控事業(yè)部中國區(qū)總裁吳永橋認為,「從前融合、BEV + Transformer,到端到端,每一代技術(shù)對數(shù)據(jù)的需求都呈指數(shù)級增長?!?/p>

目前國內(nèi)頭部公司的端到端智駕版本,大約使用了數(shù)百萬條級別的短視頻進行訓(xùn)練,并向千萬級的短視頻推進。這些短視頻時長在幾十秒 - 幾分鐘不等,往往包含了多個連續(xù)的場景和駕駛行為。在開發(fā)城區(qū)智駕的3年中,博世在數(shù)據(jù)端「付出了巨大的代價」?!赴ㄗ越ú杉囮牐緳C與合規(guī)員。通過仿真生成的數(shù)據(jù)大部分只能用于一般性的測試場景。但真正有價值的、對用戶體驗有關(guān)鍵提升的數(shù)據(jù)數(shù)據(jù),往往來自采集?!箙怯罉蛘f。這些數(shù)據(jù)如何采集、存儲、篩選、標(biāo)注,尤其智駕相關(guān)的數(shù)據(jù)還涉及地理信息安全和個人隱私。

作為一家國際Tier 1,博世還需要考慮采集、存儲、訓(xùn)練、仿真等數(shù)據(jù)鏈路全流程的合規(guī),并且在滿足合規(guī)的情況下盡可能提高研發(fā)效率。

從2020年開始,博世就決定與騰訊深度合作,將數(shù)據(jù)和工具鏈部署在騰訊云的汽車云專區(qū)上。汽車專有云是一個既能保障嚴苛的數(shù)據(jù)合規(guī)要求,同時滿足數(shù)據(jù)訓(xùn)練高效存取需求的方案。劉澍泉說,騰訊是第一家在國內(nèi)建設(shè)自動駕駛專有云的企業(yè),機房與網(wǎng)絡(luò)獨立于公有云,但沿襲了公有云同樣的技術(shù)路線和架構(gòu),比公有云有更好的安全性,比私有云有更好的靈活性。

同時,有著圖商資質(zhì)的兜底,能夠保障數(shù)據(jù)全流程滿足最新的監(jiān)管要求。博世是騰訊第一個自動駕駛專有云的客戶。因為與騰訊專有云的合作,博世才能在極其嚴苛的合規(guī)條件下,18個月就干成了城市NOA的交付,吳永橋說。

端到端是算力軍備賽,也是人才競賽

海量的數(shù)據(jù)隨后將投入到類似「煉金」的流程——訓(xùn)練。端到端基于模型訓(xùn)練(而不是基于工程師代碼)的開發(fā)方式,決定了它可以進行大量并行的版本測試;加上模型訓(xùn)練本身的數(shù)據(jù)量驚人,所以這種開發(fā)方式是「算力吞金獸」。各個頭部廠商的云端算力都在快速增長:

華為ADS云端算力數(shù)據(jù)是7.5 EFLOPS(截止9月智界R7上市發(fā)布會);

理想當(dāng)前的云端算力是6.83 EFLOPS,并計劃年底拉到10 EFLOPS(截止11月廣州車展);

小鵬規(guī)劃明年的云端算力是10 EFLOPS(截止11月小鵬P7+上市發(fā)布會);

小米智駕能從集團申請到的算力上限是8.1 EFLOPS(截止11月廣州車展);

百度智駕能從集團調(diào)度的算力規(guī)模是5 EFLOPS(截止8月成都車展);

騰訊云能提供的云端算力規(guī)模為16 EFLOPS(截止9月騰訊全球數(shù)字生態(tài)大會)。

此外,長安的自研團隊也儲備了數(shù)千張GPU卡(截止10月啟源E07上市),并計劃明年提升到萬卡規(guī)模;極氪今年也投入了大量資金采購訓(xùn)練算力。至于特斯拉的算力規(guī)劃,則是在100 EFLOPS級別。今年幾家頭部公司的共識是,「在未來幾年內(nèi),用于智駕云端算力的年度算力支出,將達到10億美元級。」相比于云端算力,只要投入足夠多的資金就可以實現(xiàn)比較快速的擴張,車端的算力可以說是「捉襟見肘」。

當(dāng)前行業(yè)中的高配算力方案——單片的OrinX,能夠運行的最大模型規(guī)模在20 - 30億參數(shù)。但如果考慮智駕需求的實時性,其運行幀率要達到10 - 20Hz,那它能運行的模型規(guī)模大概只有在10億參數(shù)以內(nèi)。因此尤其從車端算力制約的角度,并非完全是訓(xùn)練的數(shù)據(jù)規(guī)模越大、云端算力越大,效果就越好。

騰訊智慧出行副總裁劉澍泉有一個比較代表性的觀點:「長期來看云端的算力需求始終會處于較大的缺口,但你是不是真的把每張卡都充分地利用起來了?以及真的要把所有的數(shù)據(jù)都投入到訓(xùn)練中嗎,如何才能發(fā)揮數(shù)據(jù)真正的價值?!巩?dāng)前,使用云端大模型來做模型蒸餾部署到車端,已經(jīng)接近成為行業(yè)共識。而云端的模型架構(gòu)、車端的模型架構(gòu)如何設(shè)計,如何打造一條圍繞數(shù)據(jù)閉環(huán)的高效工具鏈,對全行業(yè)來說都是新課題。

端到端本質(zhì)上是,資本、人才、工程化能力的集合體?!跪v訊智慧出行副總裁劉澍泉說。對主機廠來說,在端到端時代,是否要像過去一樣全棧自研,從零再搭地基?劉澍泉的看法是,「大家越來越回歸理性,各自做各自擅長的事情,做增量性的創(chuàng)新?!?/p>

解決端到端的安全底線:智駕地圖與視覺語言模型

過去半年內(nèi),HiEV體驗了幾乎市面上所有廠商的端到端智駕版本,智駕系統(tǒng)隨著數(shù)據(jù)量的增長,體驗提升是肉眼可見的。但端到端也引入了新的問題——「上限很高,沒有下限」,一位智駕行業(yè)的研發(fā)朋友如此調(diào)侃。

目前行業(yè)的普遍做法是由模型來輸出軌跡規(guī)劃,而由基于規(guī)則的控制算法來輸出具體的油門開度、剎車力度以及方向盤轉(zhuǎn)角,由此來約束車輛不會出現(xiàn)極端的安全問題。復(fù)雜路口的道路認知也是當(dāng)前也是端到端智駕方案的「重災(zāi)區(qū)」,目前HiEV體驗的多個車型智駕版本都非常容易出現(xiàn)選錯道或者壓實線的情況。吳永橋認為,「這確是無圖方案普遍的難題。

第一,強大的感知是解決的基礎(chǔ);

第二,全國一些特別復(fù)雜的路口,可能需要地圖做一些輕度掛接的元素,是非常有必要,而且極大改善用戶的體驗;

第三,真正做到大模型之后,需要大量的數(shù)據(jù)訓(xùn)練,如果未來這個路口是不是能收集10萬個老司機開過的視頻,再以后可能就不需要了,它到了這個地方可能就知道怎么看,可能需要更長時間才能實現(xiàn)?!?/p>

「今天來看,在純無圖完全只用SD和使用HD之間,還是有一個中間狀態(tài),要通過輕地圖進行過渡?!箘J為,「為了增加安全冗余,城市路口的輕地圖可能會是中期來看更穩(wěn)健的方案。」

圖商開始提供更加開放的地圖數(shù)據(jù)服務(wù),來滿足輕圖、無圖方案的需求。比如騰訊的智駕云圖,將地圖數(shù)據(jù)以云服務(wù)的形式提供給車企,來保障更高效、靈活的地圖更新。

探尋更高的上限和更高的下限,在2024年下半年,行業(yè)也逐漸形成共識,其中一種路徑是世界模型,另一種方式則是運行車端的雙系統(tǒng),比如視覺語言模型(VLM)或者視覺語言動作模型(VLA)。吳永橋透露,博世將在明年推出一段式端到端的智駕方案,到2026年推出基于世界模型的版本。「現(xiàn)在整個智駕行業(yè)路線已經(jīng)很明確,需要更大的算力,一部分算力跑端到端,另一部分算力跑視覺語言模型,這肯定是必然的方向。智駕就是算力、算法和數(shù)據(jù)。

算力我們和騰訊合作,同時博世在全球布局了很多的算力集群。算法,結(jié)合開源的論文和廣大的中國人才,可以學(xué)得很快。數(shù)據(jù)在端到端之后大模型是最復(fù)雜的,最難獲取高質(zhì)量的數(shù)據(jù),我們和大客戶合作,可以獲得高質(zhì)量的數(shù)據(jù)。因為很多企業(yè)都不一定有資金有雄厚的資本。博世沒有資本的裹脅,可以長期堅持自己的戰(zhàn)略定力。我認為未來最核心的比拼是高質(zhì)量的數(shù)據(jù),是端到端大模型能夠走得多遠多快最核心的因素。」

相關(guān)推薦

電子產(chǎn)業(yè)圖譜