特斯拉的FSD V12直播秀又火了,對(duì)于特斯拉而言它的每一步動(dòng)作無(wú)不牽動(dòng)著行業(yè)的關(guān)注,這次還是完成了端到端自動(dòng)駕駛的突破。
事實(shí)上,自動(dòng)駕駛行業(yè)自發(fā)展以來(lái),分模塊攻破便成了業(yè)內(nèi)人士的普遍思路,從感知到?jīng)Q策規(guī)劃到控制,這套流程也符合人類駕駛員的思考模式。畢竟,人開(kāi)車時(shí)也是先對(duì)周圍的環(huán)境先大致了解,并結(jié)合自己的目的地和當(dāng)前位置來(lái)做出一個(gè)決策,再調(diào)動(dòng)手腳來(lái)執(zhí)行完成這個(gè)任務(wù)。這一整套的處理方式非常自然,因此很長(zhǎng)一段時(shí)間,業(yè)界的自動(dòng)駕駛公司包括科研人員,都按這種模塊劃分的模式,來(lái)修煉自身技術(shù)棧,最后統(tǒng)一配合來(lái)完成自動(dòng)駕駛?cè)蝿?wù)。但特斯拉這次另辟蹊徑,也將端到端自動(dòng)駕駛帶到了大眾的眼前。
端到端自動(dòng)駕駛
如上文所說(shuō),很長(zhǎng)一段時(shí)間以來(lái),自動(dòng)駕駛的從業(yè)者習(xí)慣了將整個(gè)自動(dòng)駕駛?cè)蝿?wù)劃分為感知、預(yù)測(cè)、決策、控制等模塊,并由于每個(gè)模塊的技術(shù)棧相差非常大,且深度難度都很高,因此每個(gè)工程師都是獨(dú)立負(fù)責(zé)其中一到兩個(gè)模塊。但其實(shí)很多年前,自動(dòng)駕駛的另一套方法論——端到端自動(dòng)駕駛就已經(jīng)產(chǎn)生了。與傳統(tǒng)的分模塊思路不同,端到端自動(dòng)駕駛以感知的傳感器數(shù)據(jù)(圖像、點(diǎn)云、雷達(dá))作為輸入,直接輸出用于車輛的控制指令(油門(mén)、剎車),中間過(guò)程都靠神經(jīng)網(wǎng)絡(luò)模型來(lái)完成。該方案一出,業(yè)界的質(zhì)疑聲便不斷。
首先,從傳感器數(shù)據(jù)直接到控制指令的鏈路,無(wú)論如何都和人類司機(jī)的駕駛習(xí)慣相距甚遠(yuǎn)。試想一下,人開(kāi)車可不是看到周圍環(huán)境后就想好了自己要打多大的方向盤(pán)轉(zhuǎn)角,要踩多深的油門(mén)。更何況這還不是結(jié)構(gòu)化的感知數(shù)據(jù),而是一張張圖像或點(diǎn)云,對(duì)于機(jī)器來(lái)說(shuō)普通的模型難以像人類一樣,自動(dòng)知道哪些像素是需要注意的,這需要引入注意力機(jī)制等技術(shù),難度又上了一個(gè)層級(jí)。
其次,便是神經(jīng)網(wǎng)絡(luò)的可解釋性一直是一大難題。目前深度學(xué)習(xí)在感知領(lǐng)域已經(jīng)較為成熟,但層出不窮的corner case,讓感知工程師們非常頭疼,難以有有效的方法去針對(duì)性調(diào)整模型來(lái)應(yīng)對(duì)。而端到端的方法直接將決策模塊也用模型來(lái)表示,作為保障自動(dòng)駕駛安全的核心模塊,決策出現(xiàn)問(wèn)題而難以定位是不能接受的,這也是端到端從起初便不被看好的主要原因。
最后,端到端概念提出以來(lái),便一直只存在于仿真與論文中,一度被認(rèn)為是灌水論文的一種方向,對(duì)于想要落地的自動(dòng)駕駛公司而言,都沒(méi)有投入太多精力去研究這種技術(shù),也讓該技術(shù)一度處于停滯狀態(tài)。
大模型爆發(fā)帶來(lái)轉(zhuǎn)機(jī)
那么就是這樣一種不被大眾看好的技術(shù),如何在今年重新火熱起來(lái)了呢?答案便是大模型的出現(xiàn)。一直以來(lái),模型越大、數(shù)據(jù)量越多,不僅難以訓(xùn)練,取得效果的泛化性也較差,因此從業(yè)者普遍不會(huì)過(guò)于擴(kuò)展任務(wù)的模型規(guī)模。但隨著chatgpt的出現(xiàn),大模型的泛化性讓業(yè)界震撼,原來(lái)數(shù)據(jù)量足夠多,參數(shù)量足夠大是有可能做到之前人類難以想象的程度的,隨之而來(lái)的,便是各行各業(yè)層出不窮的大模型結(jié)構(gòu)。
作為人工智能的最火熱領(lǐng)域,自動(dòng)駕駛當(dāng)然也不落下風(fēng),這時(shí)人們突然想到了這個(gè)被冷落多年的端到端自動(dòng)駕駛技術(shù),結(jié)合上大模型的驚艷表現(xiàn),是否能創(chuàng)造出不一樣的可能,將之前難以用規(guī)則窮盡的corner case,全都通過(guò)大量的數(shù)據(jù)累積來(lái)一舉攻破?今年cvpr 的best paper便展現(xiàn)了該思路的可行性,論文中提出的uniAD框架以規(guī)劃的目標(biāo)為整個(gè)端到端模型的優(yōu)化代價(jià),來(lái)優(yōu)化整個(gè)網(wǎng)絡(luò)模型,使得端到端的輸出更加考慮規(guī)劃的各項(xiàng)指標(biāo),從而保障了自動(dòng)駕駛的安全性。而這一切都以大模型的誕生作為基礎(chǔ),并配合著日益增長(zhǎng)的高算力平臺(tái),大模型的推理速度也達(dá)到了實(shí)時(shí),完全可以滿足自動(dòng)駕駛的任務(wù)需求。
與此同時(shí),就在前幾天,馬斯克直接直播了當(dāng)前FSD V12 的路測(cè)視頻,在整個(gè)直播過(guò)程中,馬斯克反復(fù)強(qiáng)調(diào)得最多的一點(diǎn)就是:“無(wú)論是最開(kāi)始遇到的紅色立柱、減速帶,還是后面遇到的騎行路人、環(huán)島路口,F(xiàn)SD系統(tǒng)都不是靠任何一行控制代碼來(lái)完成決策的。相反,F(xiàn)SD只是看了非常多的視頻,然后完成了訓(xùn)練,得到了一個(gè)神經(jīng)網(wǎng)絡(luò)。”?事實(shí)上,特斯拉Autopilot的決策從2020年開(kāi)始由編程邏輯轉(zhuǎn)為視頻訓(xùn)練的神經(jīng)網(wǎng)絡(luò),在FSD v12之前,v11版本控制堆棧中有超過(guò)30萬(wàn)行C++代碼。
端到端真的是出路嗎?
那么,接著大模型重新火起來(lái)的端到端自動(dòng)駕駛,真的是未來(lái)嗎?畢竟連自動(dòng)駕駛領(lǐng)頭羊特斯拉都已率先踏上了這條路,其他產(chǎn)商應(yīng)該也開(kāi)始探索該條路線的可行性。然而端到端技術(shù)目前就談?wù)撋宪囯A段,筆者認(rèn)為還為時(shí)過(guò)早,除了贊嘆特斯拉的工程落地能力之快外,也只有馬斯克敢冒如此風(fēng)險(xiǎn)推廣新的技術(shù)。
事實(shí)上,端到端技術(shù)還擁有著非常多的不確定性。例如馬斯克直播中,19分左右,馬斯克進(jìn)行了第一次干預(yù),也是全程的唯一一次。這輛特斯拉竟然在簡(jiǎn)單的場(chǎng)景下闖紅燈了,犯了一個(gè)低級(jí)的失誤。馬斯克也直言,這就是為什么V12還沒(méi)有公開(kāi)發(fā)布的原因。這一幕也充分說(shuō)明了強(qiáng)如特斯拉掌握如此多的人類駕駛員駕駛數(shù)據(jù),但也竟然在簡(jiǎn)單場(chǎng)景翻車。分模塊可以輕松搞定的場(chǎng)景,在端到端中反而犯了難,并且可以想象事后特斯拉的工程師們也難以定位到問(wèn)題的真正原因,只能再提取紅綠燈場(chǎng)景的數(shù)據(jù),喂給該模型,以期望下次過(guò)路口時(shí)不會(huì)再犯這種低級(jí)失誤,然而由于深度學(xué)習(xí)的特性并不能百分百保證。
其次,對(duì)于多數(shù)自動(dòng)駕駛公司而言,想要效仿特斯拉將會(huì)非常困難。一是沒(méi)有特斯拉如此多規(guī)模的數(shù)據(jù),二是特斯拉針對(duì)這些數(shù)據(jù),有著非常高級(jí)的算法進(jìn)行數(shù)據(jù)清洗和自標(biāo)注,保障喂給模型的數(shù)據(jù)都是高可靠的。這兩重困難也是想要走向端到端之路的必解難題。
最后,作為自動(dòng)駕駛這項(xiàng)關(guān)乎性命的行業(yè)而言,如何保障任何極端情況下模型輸出的安全性將是最大考驗(yàn)。不同于chatgpt之類的問(wèn)答機(jī)器人,自動(dòng)駕駛算法將有關(guān)道路人身安全,大模型上已經(jīng)驗(yàn)證的模式是否能直接照搬至自動(dòng)駕駛行業(yè),目前沒(méi)有嚴(yán)格的證明。這也將是端到端技術(shù)落地的最大挑戰(zhàn)之一。
總結(jié)
大模型的興起為自動(dòng)駕駛技術(shù)帶來(lái)了新的可能,而特斯拉的成功也讓相關(guān)從業(yè)者們更加堅(jiān)信完全的無(wú)人駕駛是有希望成為現(xiàn)實(shí)的,端到端是否真的成為自動(dòng)駕駛的未來(lái),現(xiàn)在還難下結(jié)論,但AI發(fā)展的速度確實(shí)已遠(yuǎn)超人們的想象,在強(qiáng)力AI的加持下人類目前能完成的工作都有望被替代,駕駛車輛這種高復(fù)雜性技術(shù),交由AI完成相信也只是時(shí)間問(wèn)題。