端到端做L4的神話,該結(jié)束了。
永徽六年(公元655年)九月的某天,唐高宗召集長(zhǎng)孫無忌、李勣、于志寧、褚遂良(著名書法家),于內(nèi)殿議事。
而這四個(gè)人心里也清楚,這是要“廢王立武”。一開場(chǎng),唐高宗表情有些不安,視線飄忽不定,用略顯尖利的聲音說到,“皇后無子,吳昭儀有子,因而朕欲立昭儀為后,眾卿以為如何?”
這是《則天武后》描述的名場(chǎng)面。而這句話,也拉開了屬于女皇武則天的時(shí)代序幕。
而這一天過去1369年后的九月初九重陽節(jié),一個(gè)“歪果仁”的無冕之王開了一場(chǎng)“We, Robot”的發(fā)布會(huì),此前還宣稱“這將是載入史冊(cè)的一天?!钡牵屓似婀趾褪氖?,發(fā)布會(huì)19分鐘草草收?qǐng)觥?/p>
特別讓人詫異的是,這位國(guó)內(nèi)俗稱“老馬”的特斯拉CEO伊隆·馬斯克同樣“表情有些不安,視線飄忽不定”。馬斯克沒了往日的淡定和自信,臉色潮紅、聳肩撇嘴、眼神飄忽,身體語言出賣了他,整場(chǎng)發(fā)布會(huì)都顯得不在狀態(tài)。
原來說好落地的Robotaxi,亮了個(gè)相而已,時(shí)間拖到了2026年。雖說談到成本會(huì)降低5倍,從1美元/英里降到0.2美元/英里,然而很明顯,“畫餅”后的股價(jià)掉了4700億人民幣。
有位智駕大牛侯曉迪說過,馬斯克10月份的發(fā)布會(huì),Robotaxi還是“做不出來”。這就像是一句讖語,徹底戳破了馬斯克的“神話”。而馬斯克欲引領(lǐng)業(yè)界的“端到端”,也許,永遠(yuǎn)也到不了L4的彼岸。
01、神話不再
那么,用“端到端”做Robotaxi到底是不是個(gè)“坑”、一場(chǎng)L4的“騙局”呢?
“端到端”是在特斯拉公布后火起來的,發(fā)展到今年,甚至沒有搞“端到端”的車企,出門都不好意思跟人打招呼。
不過,被“神話”的特斯拉在Robotaxi上,自己也掉“坑”里了。今年,在發(fā)布二季度財(cái)報(bào)的同時(shí),馬斯克正式宣布其Robotaxi的產(chǎn)品發(fā)布會(huì)將從8月初推遲至10月初。連續(xù)跳票后的發(fā)布會(huì)有草草收?qǐng)?,讓我們看到了馬斯克的囧境。
問題是,馬斯克此前的成功,讓相信馬斯克、追隨馬斯克的人很難相信他會(huì)失敗,這也是創(chuàng)投圈的“政治正確”。而且,馬斯克以一套不可證偽的話術(shù),完美地把自己的技術(shù)差距說成是數(shù)據(jù)和算力的差距,數(shù)據(jù)、算力不夠,正好就請(qǐng)投資人繼續(xù)投資嘛!這就形成完美的閉環(huán)。
如今,完美的閉環(huán)眼看著要斷裂。比如,離開圖森未來、在美國(guó)成立新公司Bot.Auto的侯曉迪,就預(yù)言馬斯克Robotaxi“做不出來”,“Robotaxi現(xiàn)在的性能和真正的L4差太遠(yuǎn)了。”
國(guó)內(nèi)也有人開始反思馬斯克的“端到端”,余承東也講過馬斯克的智駕上限和下限的問題。所以,在這些異見者看來,Robotaxi不是靠解決一兩個(gè)Bug,延期兩個(gè)月就能發(fā)布的。
此前侯曉迪接受采訪時(shí)還預(yù)言:10月10日(原定)仍然不會(huì)是Robotaxi真正發(fā)布的時(shí)機(jī),甚至明年都不是它可以應(yīng)用的時(shí)間點(diǎn)。今年10月份頂多公布關(guān)于何時(shí)真正發(fā)布Robotaxi的線索。
11日的發(fā)布會(huì)印證了侯曉迪的預(yù)言。整場(chǎng)發(fā)布會(huì)沒有細(xì)節(jié),選擇的地點(diǎn)也是環(huán)球影城的電影棚,你說巧合也行,說“演”也行,反正是挺應(yīng)景的。且在體積與Model 3相當(dāng)?shù)腃ybercab里,只放置了兩個(gè)座位,說它是Robotaxi吧,卻損失了車輛運(yùn)力,且不會(huì)帶來炫目外觀之外的任何好處。
不出意外,另外Waymo和百度的兩個(gè)“蘿卜”可能會(huì)反超過去。這讓我們懷疑,馬斯克是不是就像蔡崇達(dá)的《命運(yùn)》里說的,“被卡住了”。就像現(xiàn)在那個(gè)著名的L4的“車輛突然卡死在十字路口影響交通”的問題無解一樣。
不過,國(guó)內(nèi)的百度“蘿卜快跑”,作為早期站在聚光燈下的推動(dòng)者,在武漢投放400輛無人車后,未來能達(dá)到什么規(guī)模的投放,還是個(gè)疑問。至少目前業(yè)內(nèi)沒有人有大規(guī)模推廣的能力,這也是無人駕駛需要解決的技術(shù)產(chǎn)品化問題。
還有,認(rèn)為無人駕駛明天就能實(shí)現(xiàn)的奢望,這是高估了短期突破的體現(xiàn)。就像艾倫·凱(2003年圖靈獎(jiǎng)得主)說的,“人們總是高估短期技術(shù)的短期突破,但是會(huì)低估技術(shù)的長(zhǎng)期影響?!?/strong>
所以,對(duì)于專業(yè)智駕人士來說,路漫漫其修遠(yuǎn)兮,L4是做限定場(chǎng)景的,而特斯拉是為了在全世界賣車,那就該老老實(shí)實(shí)地說自己的FSD是L2+的水平,而不是通過營(yíng)銷讓大眾混淆,最終南轅北轍,搬起石頭砸自己的腳。
02、“不可解釋性”是BUG
為什么馬斯克的“端到端”可能會(huì)“觸礁”?我們就來分析一下。
業(yè)內(nèi)也有人包括馬斯克本人相信,L2能漸進(jìn)發(fā)展成L4。但L2功能做得再好,最多只完成L4的三成功能。從這點(diǎn)來說,特斯拉就是L2+公司,而不是L4公司,畢竟,它的很多設(shè)計(jì)不是出于安全或冗余的目的。
“L4必須有可解釋性,不能僅依賴說不清楚的數(shù)據(jù)黑盒子?!边@是侯曉迪的原話。這也揭示了端到端的BUG所在。“端到端”是個(gè)黑盒子,充滿不可解釋性。
在2024中國(guó)汽車論壇——高階智駕論壇上,地平線智駕產(chǎn)品市場(chǎng)總監(jiān)劉文堯演講時(shí)也講到,“端到端的技術(shù)路線由于是數(shù)據(jù)驅(qū)動(dòng)的,在上限上的表現(xiàn)會(huì)更高,它能明顯在更復(fù)雜的場(chǎng)景當(dāng)中有更好的體驗(yàn)。
但是,由于它是一個(gè)不可解釋的黑盒的模式,完全放棄規(guī)則驅(qū)動(dòng)(Rule-based),意味著它的下限就會(huì)不可控,很可能出現(xiàn)人都無法解釋的詭異的駕駛安全行為。而且在這個(gè)行為出現(xiàn)的情況下,你很難對(duì)它做一個(gè)快速的Bad Case的迭代,因?yàn)槟阕约憾冀忉尣怀鰜硭鼮槭裁催@么做,根因是很難找到的?!?/strong>
而從國(guó)內(nèi)的智駕現(xiàn)狀來說,過去數(shù)年,幾乎所有的智駕企業(yè)選擇的都是可解釋的“模塊化”的路線。在模塊化的結(jié)構(gòu)中,智駕系統(tǒng)被拆解、融合為“感知-規(guī)劃-控制”三大模塊,像華為、小鵬的端到端大模型,就更近似于模塊化方案演變、融合后的結(jié)果。
當(dāng)然,模塊化結(jié)構(gòu)一直存在的“硬傷”是,盡管模塊數(shù)已經(jīng)變少,但感知端為了保證規(guī)控端的平穩(wěn)運(yùn)行,仍有可能出現(xiàn)被迫丟失信息的情況。而系統(tǒng)的決策又需要獲取足夠全面的信息,才有可能達(dá)到全局最優(yōu)。這是避不開的、最為矛盾的一環(huán)。
所以,為了解決近乎無窮的“Corner case”,大家又一股腦地投入“端到端”的熱潮中去。
而從基于規(guī)則的Rule based,到基于深度學(xué)習(xí)Learning based,所謂“數(shù)據(jù)驅(qū)動(dòng)”,通過海量的數(shù)據(jù)支持,來歸納求解,這是業(yè)內(nèi)車企競(jìng)相選擇端到端大模型的重要因素之一。泛化能力雖然更強(qiáng),但海量的數(shù)據(jù)并不一定能夠?qū)ο到y(tǒng)產(chǎn)生正向的提升。
當(dāng)下最極端的論點(diǎn)是,無人駕駛距距離攻克也就是幾千萬公里的Corner case,以及大量的算力。這是典型的圍繞“數(shù)據(jù)驅(qū)動(dòng)”、“端到端”創(chuàng)造出來的愿景,兩者相輔相成,智駕領(lǐng)域的投資泡沫就是這么來的。
問題是,從技術(shù)角度來看,“端到端”極其依賴于大模型內(nèi)部的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),而神經(jīng)網(wǎng)絡(luò)本身又具備不可解釋性,所以業(yè)內(nèi)關(guān)于端到端的應(yīng)用和界定一直是各執(zhí)一詞。
眾所周知,人工智能的三大流派——連接主義、行為主義和符號(hào)主義,雖然當(dāng)下連接主義成為主流,但這三大流派各有強(qiáng)項(xiàng),且連接主義采用的是深度學(xué)習(xí),是個(gè)歸納、統(tǒng)計(jì)型的算法,這種“連接主義解決一切”的想法能不能實(shí)現(xiàn)?是個(gè)問題。
歸根究底,成功落地、實(shí)現(xiàn)量產(chǎn),提高駕駛安全性和便捷度,才是智駕的核心。所以,用一個(gè)主義解決全部問題是不太可能的,需要兼容并蓄。
這方面,我贊同侯曉迪說的,對(duì)于內(nèi)行人來說,現(xiàn)在“端到端”不是一個(gè)學(xué)術(shù)概念,而是一個(gè)情緒載體,“很容易把機(jī)器學(xué)習(xí)領(lǐng)域沒有完成的夢(mèng)想和未竟的事業(yè)都寄托到‘端到端’這個(gè)具體技術(shù)概念里?!?/p>
03、One Model,Two Model,World Model
質(zhì)疑馬斯克的,不僅有侯曉迪,也包括小馬智行CTO樓天城和輕舟智航 CTO 侯聰。
侯聰對(duì)于馬斯克和Robotaxi的看法是,“Robotaxi 這個(gè)事情他有點(diǎn)吹牛了,低估了事情的難度?!倍鴺翘斐堑囊粋€(gè)結(jié)論是,L2做得越厲害,它離L4越遠(yuǎn)。反之也是如此。一個(gè)越好的L4公司,它離L2越遠(yuǎn)。
為什么?因?yàn)?,輔助駕駛就是一個(gè)助手,它的成本和覆蓋區(qū)域很重要,跟人類交互很重要。而L4的駕駛主體是機(jī)器,所有事情都要機(jī)器端解決,不能交給別人。哪怕稍微慢一點(diǎn),安全性100%一定要保證。
而特斯拉做Robotaxi的邏輯是通過L2輔助駕駛的數(shù)據(jù)不斷積累實(shí)現(xiàn)L4級(jí)的Robotaxi,這無異于緣木求魚。這也是幾位反共識(shí)的“異見者”的結(jié)論。
而且,有意思的地方在于,當(dāng)初馬斯克是為數(shù)不多堅(jiān)持通過L2數(shù)據(jù)積累不斷實(shí)現(xiàn)L4的人,在當(dāng)時(shí)被外界認(rèn)為是異類。如今反過來了。
換句話說,通過L2的漸進(jìn)式路線做不出L4。L2的駕駛主體是人,L4的駕駛主體是機(jī)器;L2關(guān)注的核心是成本、覆蓋范圍和體驗(yàn),L4更關(guān)注的是安全。所以,L2和L4的產(chǎn)品設(shè)計(jì)出發(fā)點(diǎn)都不同。
所以,2024杭州云棲大會(huì)上,小鵬汽車董事長(zhǎng)何小鵬對(duì)于特斯拉的盲目崇拜和盲目自信就很讓人擔(dān)心,“端到端的模型下限能力有望在明年快速提高,一旦提高后,不用2年時(shí)間,在全球范圍內(nèi)就可以做到超越 L4 標(biāo)準(zhǔn)的能力?!?/p>
問題在于,L2級(jí)智能輔助駕駛背后有人類司機(jī)兜底,但是L4的Robotaxi不行,要做到更好的商業(yè)化,做到車內(nèi)無人,沒有人給系統(tǒng)兜底,車輛的駕駛權(quán)屬于系統(tǒng),責(zé)任屬于企業(yè)。所以系統(tǒng)就要無限提高安全上限。這是難點(diǎn)所在。
當(dāng)然,就當(dāng)下的情況而言,要達(dá)到“端到端”的目的需要不斷有突破性的手段。最近的動(dòng)向是關(guān)于世界模型的。
現(xiàn)在是Two Model、World Model、One Model三部曲思路。因?yàn)椋M管端到端上車如火如荼,但目前大部分中國(guó)車企并未實(shí)現(xiàn)理論上的“One Model”。通行的做法是,將端到端模型的智駕應(yīng)用分為兩個(gè)階段:
第一個(gè)階段是“Two Model”,由一個(gè)端到端的感知和一個(gè)端到端的規(guī)控組成,這是目前比較主流的一個(gè)方向。第二階段才是“One Model”,一個(gè)大模型解決信息輸入到?jīng)Q策輸出,但業(yè)內(nèi)預(yù)估要3~5年之后才會(huì)有一些規(guī)?;膽?yīng)用。
此外,蔚來、理想等車企都發(fā)布了自研的“世界模型World Model”,供應(yīng)商中有地平線、小馬智行等。像樓天城就認(rèn)為,“World Model”是目前最佳最重要的東西,將其理解為通往自動(dòng)駕駛的唯一解。
所謂世界模型,可以理解為對(duì)真實(shí)世界的仿真與建模,可以真實(shí)準(zhǔn)確地還原比如十字路口等場(chǎng)景的變化。同時(shí),世界模型還是一個(gè)評(píng)分體系,對(duì)自動(dòng)駕駛系統(tǒng)的表現(xiàn)做出評(píng)價(jià),能夠得知A系統(tǒng)和B系統(tǒng)相比誰更好。
蔚來自動(dòng)駕駛副總裁任少卿表示:“相比于常規(guī)的端到端的模型,新的世界模型有三個(gè)我們認(rèn)為主要的優(yōu)勢(shì)。第一個(gè)是在空間理解上,通過生成式模型,從重構(gòu)傳感器的方式,更加泛化地抽取了信息。第二個(gè),通過自回歸模型,自動(dòng)建模長(zhǎng)時(shí)序環(huán)境。第三個(gè),萬千世界需要更多數(shù)據(jù),通過自監(jiān)督的方式,無須人工標(biāo)注,它是一個(gè)多元自回歸生成模型結(jié)構(gòu),讓我們學(xué)得更好?!?/p>
此外,地平線也在感知上引入了“World Model”的概念。地平線認(rèn)為,通過World Model的算法訓(xùn)練可以解決場(chǎng)景的泛化、功能的連續(xù)性以及體驗(yàn)的一致性的問題。不過,在規(guī)控算法上,保留了Rule-based的鏈路。
世界模型的作用能有多大,還屬于未知。但是,說到底,Rule-based(基于規(guī)則)或者說Principle-based是不能放棄的,妄圖完全依靠端到端的“黑盒子”來解決問題,包括特斯拉、華為、小鵬等頭部車企正在做的事情,都得當(dāng)心,正在做不等于有結(jié)果。
L4的核心是如何完成一個(gè)穩(wěn)定的系統(tǒng),尤其是用不穩(wěn)定的模塊去完成一個(gè)穩(wěn)定系統(tǒng)。L4需要的是智慧,而不僅僅是資本和算力、數(shù)據(jù)、智商。在這點(diǎn)上,即使強(qiáng)如馬斯克也同樣如此。根本的辦法還是,通過架構(gòu)層創(chuàng)新來保證系統(tǒng)的安全性,做好安全冗余。
反觀當(dāng)下各個(gè)企業(yè)喧囂的“端到端”宣傳,更多的目的還是打造差異化、把車賣出去。那么多的“心大了”的智駕事故,已經(jīng)很說明問題。這是我們應(yīng)該心里“門清”的。
作者丨王小西
責(zé)編丨北? ?岸
編輯丨王? ?越