作者 | 萬博
顧維灝:特斯拉是唯一一個進入自動駕駛3.0時代的玩家,毫末智行要做下一個。
剛剛過去的毫末智行第六屆AI DAY,從董事長張凱到CEO顧維灝,發(fā)言的關(guān)鍵詞有2個:“量產(chǎn)”和“數(shù)據(jù)”。
在量產(chǎn)層面,毫末智行打造的城市NOH即將量產(chǎn)上市,今年年底將在10個城市落地,明年使用范圍計劃擴大到100城。
末端物流賽道,自動駕駛配送車小魔駝2.0訂單量已經(jīng)超過9萬單。小魔駝2.0在今年4月份發(fā)布之后,現(xiàn)在已經(jīng)量產(chǎn)交付,這也是業(yè)內(nèi)首款面向商用市場的10萬元級物流配送車。
而談到數(shù)據(jù),就涉及到毫末智行自動駕駛量產(chǎn)路線的底層邏輯——大數(shù)據(jù)、大模型,和自動駕駛漸進式落地路線。
01、毫末智行最新進展
自動駕駛量產(chǎn)落地,毫末智行走在了行業(yè)前列。
張凱披露,截止到目前,用戶使用毫末智行開發(fā)的輔助駕駛系統(tǒng)所產(chǎn)生的輔助駕駛里程積累,已經(jīng)超過1700萬公里。
海量里程數(shù)據(jù)之下,毫末智行數(shù)據(jù)智能體系MANA的學習時長已經(jīng)超過31萬小時,虛擬駕齡達到4萬年。
有了MANA的加持,毫末的智能駕駛產(chǎn)品開發(fā)和迭代速度大幅提升。兩年時間內(nèi),毫末HPilot智能駕駛系統(tǒng)已經(jīng)經(jīng)過了6次OTA升級,迭代到3.0版本。截止到目前,毫末智行可以做到30個智能駕駛項目異步并行開發(fā)。
一套系統(tǒng)在新車型上的復用開發(fā),可以在4個月內(nèi)達到量產(chǎn)狀態(tài)。
也因此,毫末HPilot目前已經(jīng)在超過10款車型上量產(chǎn)搭載,這其中魏牌、坦克、哈弗等品牌已經(jīng)實現(xiàn)上車,歐拉、長城炮等品牌車型,也正在陸續(xù)交付。
而這,也不過是個開始,毫末官方的目標是,到今年年底,HPilot的要在30多款車型上量產(chǎn)上車,未來搭載HPilot的車要達到百萬輛級別。
從數(shù)據(jù)積累到產(chǎn)品開發(fā)迭代,再到HPilot上車,最受關(guān)注的是,毫末智行即將大規(guī)模量產(chǎn)落地城市NOH。
張凱表示,即將量產(chǎn)上市的全新摩卡DHT-PHEV激光雷達版將搭載毫末HPilot 3.0智能駕駛系統(tǒng),而該系統(tǒng)的最大亮點,就是高級別輔助駕駛第一次在國內(nèi)走下高速,開進城市開放道路。
據(jù)了解,毫末城市NOH,前后開發(fā)周期歷時10個月,而在此之前,已經(jīng)在保定和北京兩地進行了上路測試,多個城市開放道路中的典型場景測試視頻,一同在AI DAY上進行了展現(xiàn)。
比如紅綠燈的智能識別和自動啟停:
路口無保護轉(zhuǎn)彎:
還有十字路口常見的待轉(zhuǎn)區(qū)通行:
這些,只是毫末展示出來的一部分,從視頻的實際效果來看,確實已經(jīng)達到了產(chǎn)品階段的能力。據(jù)了解,毫末的計劃是,截止到今年年底,城市NOH落地10城,而到了明年,這個數(shù)字要增加9倍,也就是100個城市。
100個城市,一年多的時間,是目標,也是壓力,但毫末智行認為,城市NOH在技術(shù)層面已經(jīng)具備了實現(xiàn)的條件。
02、城市場景自動駕駛的六大挑戰(zhàn)
在顧維灝看來,城市場景是自動駕駛的核心突破點,而城市開放道路的復雜性也遠遠超過此前的預期。比如城市道路養(yǎng)護頻繁、大型車輛密集、變道空間突然變窄、城市環(huán)境多樣等等。
而要解決這些難點,需要面對的挑戰(zhàn)有6個:
如何在自動駕駛領(lǐng)域應用大模型?
如何讓新數(shù)據(jù)發(fā)揮更大的價值?
如何使用重感知技術(shù)解決現(xiàn)實空間理解問題?
如何使用人類世界的交互接口?
如何讓仿真更真?
如何讓自動駕駛系統(tǒng)運動起來更像人?
而解決這些挑戰(zhàn),主要靠的是MANA在感知、數(shù)據(jù)使用效率等方面的能力進化。
顧維灝認為,在自動駕駛領(lǐng)域應用大模型,首先要解決的問題是,如何能更高效地將數(shù)據(jù)規(guī)模轉(zhuǎn)化為模型效果。
這里涉及的一個關(guān)鍵節(jié)點是,數(shù)據(jù)標注。
大模型意味同時也意味著大量的參數(shù)和數(shù)據(jù),在這種情況下,數(shù)以10億計的數(shù)據(jù)標注需要大量的時間和成本。在此之下,就需要一種能夠直接使用大量無標注數(shù)據(jù)的方法來解決問題。
毫末選擇的方法是,自監(jiān)督學習,也就是用大量的無標注數(shù)據(jù)訓練感知任務(wù)backbone(主干網(wǎng)絡(luò)),模型其他部分用標注數(shù)據(jù)進行訓練。通過這種方式,可以將訓練效果提升3倍以上,同時精度有顯著提升。
關(guān)于第二個挑戰(zhàn),顧維灝提到一個現(xiàn)象:在數(shù)據(jù)量越來越大,達到一定量級的時候,頭部場景的數(shù)據(jù)樣本豐富,但(場景)占比少,大部分長尾場景和類別的數(shù)據(jù)樣本匱乏。
比如在車輛識別中,乘用車樣本多,但一些異形車的數(shù)據(jù)就比較少,類似的情況還有帶有特殊圖文的交通燈、不同樣式的汽車尾燈等。
這種現(xiàn)象造成的結(jié)果是,訓練出來的模型針對一些長尾場景的處理效果不好,同時在加入新數(shù)據(jù)的時候,還會導致已有的訓練效果迅速衰退。
為了解決這一難題,毫末為MANA構(gòu)造了一個增量式學習訓練平臺,平時在對模型進行訓練時,放棄優(yōu)化所有參數(shù),而是有選擇的對一些特定參數(shù)進行定點優(yōu)化,同時動態(tài)觀察模型的擬合能力,適時擴充模型的擬合能力。這樣就可以節(jié)省80%以上的算力,收斂時間提升6倍。
第三個挑戰(zhàn),如果將高精地圖數(shù)據(jù)接進系統(tǒng)就不是挑戰(zhàn),這也目前大多數(shù)自動駕駛玩家的玩法,但毫末偏偏走的是“重感知+輕地圖”的路線。因為在顧維灝看來,高精地圖的迭代速度和成本問題,都無法滿足自動駕駛的需求。
但沒了高精地圖,傳感器之外的空間如何感知,自動駕駛?cè)绾螛?gòu)建自己所處的3D空間?
毫末采取的方式,與特斯拉的方法有相似之處,那就是讓系統(tǒng)自己“腦補”。
具體來說,就是使用時序的Transformer模型在BEV空間做虛擬實時建圖,通過這種方式使感知車道線的輸出更加準確和穩(wěn)定。
挑戰(zhàn)四,使用人類世界的交互接口。顧維灝表示,過去毫末主要是通過傳感器和算法對交通參與者的行為進行預測,以此來對車輛周圍的交通環(huán)境做出提前反應,但在復雜性更高的城市開放道路,單純靠“猜”的方式已經(jīng)不夠用了。
解決這個問題的方法是,識別更多的人類交通語言,比如剎車燈、轉(zhuǎn)向燈,這樣算法就能更清楚的判斷周圍車輛的下一步行動,進而做出決策。
第五個挑戰(zhàn),就是讓仿真訓練的數(shù)據(jù)更接近真實場景,而在城市開放道路場景下,復雜性往往更高,尤其是應對路口場景,時效性和微量交通流變化的構(gòu)建存在問題。
為此,毫末與阿里以及浙江德清縣進行合作,利用路端設(shè)備將路口的全天候真實交通流記錄下來,建立自動駕駛場景庫。這種采集方式,相比車輛采集數(shù)據(jù)更加豐富和真實。
至于最后一個挑戰(zhàn),實際上要解決的是自動駕駛的舒適性問題,例如自動啟停的機械感和頓挫感。
在這個問題上,顧維灝介紹,毫末主要是通過借鑒多模態(tài)大模型的方法來解決自動駕駛的認知問題。通過對覆蓋全國的大量人類駕駛行為進行深度理解,構(gòu)建 taskpromt,訓練一個基于時空Attention的駕駛決策預訓練大模型,使得自動駕駛決策更像人類實際駕駛行為。
以上,就是毫末智行以自己的角度和方法論,對自動駕駛的核心難題給出的解決方式,而透過這一套方法論,也能看到毫末智行大規(guī)模量產(chǎn)背后的關(guān)鍵詞:
大數(shù)據(jù)、大模型,和自動駕駛漸進式落地路線。
03、大數(shù)據(jù)、大模型的自動駕駛3.0時代
顧維灝將自動駕駛演進分成了三個階段,三個階段的不同之處在于,驅(qū)動因素不同。
硬件驅(qū)動的1.0時代,最典型的特征是,感知能力主要靠激光雷達,認知方式依賴人工規(guī)則,整車成本高企,自動駕駛里程數(shù)據(jù)在100萬公里左右;
軟件驅(qū)動的2.0時代,AI在車上廣泛應用,但還是小模型和小數(shù)據(jù)訓練的方式,傳感器的識別結(jié)果開始融合,但還是基于結(jié)果的后融合方式,認知方式依然以人工規(guī)則為主,自動駕駛里程數(shù)據(jù)在100萬到1億公里之間;
數(shù)據(jù)驅(qū)動的3.0時代,在顧維灝看來決然不同以往,數(shù)據(jù)可以自己訓練自己,自動駕駛玩家的側(cè)重點,轉(zhuǎn)移到高效獲取數(shù)據(jù),并把數(shù)據(jù)轉(zhuǎn)化為知識上。
當然,自動駕駛3.0時代,被毫末智行看作更高層級的境界,在這個境界中,需要大模型和大數(shù)據(jù),大模型是工具,大數(shù)據(jù)是食糧。這個食糧需要多少?毫末說1億公里以上。
關(guān)于大模型,目前業(yè)內(nèi)的主要認知,也正是將大模型應用于自動駕駛,而毫末智行下手的更早,兩年前就開展了基于Attention機制的Transfomer大模型在自動駕駛行業(yè)的落地研發(fā)。
同時顧維灝還提到,訓練大模型需要消耗巨大的算力,舉個栗子:一個千億級別參數(shù),百萬個clips大模型,需要上千卡的GPU訓練幾個月時間,訓練時間周期和成本高企。
所以毫末智行經(jīng)過幾個月的籌備,建設(shè)MANA超算中心,這個超算中心的目標是,千億參數(shù)百萬clips的大模型,整體訓練成本降低200倍。
由此,毫末也成為第一個建設(shè)超算中心的自動駕駛玩家。
所以最后的落點,就落在了獲取數(shù)據(jù)層面,既要優(yōu)質(zhì),還要便宜,最后還能大規(guī)模獲取。
有沒有先例可循?
特斯拉是一個答案,恐怕也是唯一的答案。具體來講,特斯拉的FSD快速迭代的時間,和交付量爆發(fā)的時間可以說基本同步。
業(yè)內(nèi)的廣泛認知是,正是大量搭載輔助駕駛功能的特斯拉汽車進入用戶手中,使得特斯拉可以在影子模式下短時間大規(guī)模收集自動駕駛數(shù)據(jù),對FSD迅速進行迭代。
毫末智行正在復刻這條道路,在短時間內(nèi)將輔助駕駛產(chǎn)品大量搭載上車,快速獲取數(shù)據(jù)。
而且相比于高級別自動駕駛,輔助駕駛成本更低,也更容易大規(guī)模鋪開,成本和速度上都有優(yōu)勢。另外在數(shù)據(jù)的有效性方面,用戶真實使用的數(shù)據(jù)對于大模型來說,也算精品糧了。
不過相比特斯拉,毫末智行的優(yōu)勢是,站在巨人的肩膀上,長城汽車提供了數(shù)據(jù)容器,毫末智行并不需要像特斯拉一樣生死掙扎數(shù)年才能迎來翻身。
所以張凱也說:輔助駕駛是自動駕駛落地的必由之路,毫末堅定的選擇漸進式自動駕駛落地路徑。
而相比之下,業(yè)內(nèi)爭論已久的另一條路線,那就是以Waymo、百度為代表的跨越派,一開始就將目光鎖定在L4級乃至以上的自動駕駛上。
對錯暫且不論,但在自動駕駛落地的步伐上,毫末智行和特斯拉,確實走在前面。
但終局,似乎還沒有到來,特斯拉的FSD被曝出問題是常事,毫末智行的城市NOH,還有待市場驗證。
所以漸進派和跨越派,你站哪邊?