大模型涌現(xiàn),BEV迎來(lái)新挑戰(zhàn)
目前,自動(dòng)駕駛最主流的傳感器是攝像頭,頭部的一些主機(jī)廠也開始把攝像頭作為主傳感器。攝像頭的優(yōu)點(diǎn)在于:
像素大,信息量豐富;
比較常用,成本低廉。
近50年,計(jì)算機(jī)視覺整體上是step by step的發(fā)展模式。說(shuō)到這里,不得不提馬爾計(jì)算理論(Marr's computational theory),是關(guān)于對(duì)象識(shí)別的計(jì)算機(jī)視覺理論。該理論指提取從圖像到圖像的一些基本要素,稱之為2.5維要素圖,最后根據(jù)2.5維表象形成信息,計(jì)算三維模型表征的一種邏輯。這一邏輯到今天依然成立,但是表達(dá)方式可能不再是step by step模塊化方式,它更多地使用神經(jīng)網(wǎng)絡(luò)來(lái)去替代。在過(guò)去,我們?cè)谘芯坑?jì)算機(jī)視覺的過(guò)程中,有使用到行人檢測(cè)算法、人臉檢測(cè)算法、車輛檢測(cè)算法,現(xiàn)在這些都被統(tǒng)籌到了神經(jīng)網(wǎng)絡(luò)算法當(dāng)中。
深度學(xué)習(xí)成為主力,神經(jīng)網(wǎng)絡(luò)取代手工代碼
從2012年開始,也就是在NIPS上發(fā)表Convolution Neural Network(卷積神經(jīng)網(wǎng)絡(luò))論文作為起點(diǎn),深度學(xué)習(xí)開始成為計(jì)算機(jī)視覺的主力算法。這個(gè)算法有一個(gè)非常典型的特點(diǎn),在規(guī)范了整個(gè)輸入和輸出以后,整個(gè)網(wǎng)絡(luò)內(nèi)部是如何抽取這些經(jīng)驗(yàn)要素,以及最后如何處理這些經(jīng)驗(yàn)要素,組成語(yǔ)義信息輸出,其實(shí)是通過(guò)前向傳播之后再后向傳播的學(xué)習(xí)方式,而不是過(guò)去人工的方式,這樣大大地簡(jiǎn)化了設(shè)計(jì)工作量,從而可以在更大規(guī)模、更加復(fù)雜的任務(wù)上得到更好的效果。今天對(duì)自動(dòng)駕駛來(lái)說(shuō),不僅包括視覺感知,還包括局部定位、對(duì)目標(biāo)長(zhǎng)短期的行為預(yù)測(cè)、自車的規(guī)劃和控制,而這些都可以使用神經(jīng)網(wǎng)絡(luò)完成,我們將其定義為軟件2.0。
和上一代相比,軟件2.0最大的區(qū)別在于,它可以通過(guò)神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì)替代過(guò)去通過(guò)人工來(lái)手寫代碼的方式完成任務(wù)。因此這對(duì)軟件工程師或者代碼量的要求,從比例上是開始縮減的,但是網(wǎng)絡(luò)規(guī)模上不斷增大。對(duì)自動(dòng)駕駛來(lái)講,今天大部分的感知,或者稱之為“大感知”、“廣義感知”,都是通過(guò)數(shù)據(jù)來(lái)驅(qū)動(dòng)的。除感知以外,定位融合、地圖定位融合、規(guī)劃控制等,也都在從基于規(guī)則、手寫代碼實(shí)現(xiàn)的軟件1.0方案,一步步轉(zhuǎn)向數(shù)據(jù)驅(qū)動(dòng)。
GPT啟示下的端到端模型訓(xùn)練
去年至今,發(fā)生了一場(chǎng)新的通用AI革命,即以大規(guī)模訓(xùn)練模型引領(lǐng)的各種各樣的GPT,形成多種模型。而對(duì)于整個(gè)GPT模型來(lái)說(shuō),這跟之前深度學(xué)習(xí)的訓(xùn)練方式存在一定的差別,GPT主要是通過(guò)海量數(shù)據(jù)預(yù)訓(xùn)練,加少量數(shù)據(jù)監(jiān)督學(xué)習(xí),然后強(qiáng)化學(xué)習(xí),這三階段去完成。那我們把它映射到自動(dòng)駕駛的這個(gè)系統(tǒng)里面,可以看到:
首先通過(guò)海量的預(yù)訓(xùn)練,去訓(xùn)練整個(gè)網(wǎng)絡(luò)的主干;
完成各個(gè)子任務(wù)模塊監(jiān)督訓(xùn)練;
通過(guò)模仿,去學(xué)習(xí)人類駕駛行為;
再加上強(qiáng)化學(xué)習(xí),矯正自動(dòng)駕駛思維模式;
最終形成端到端的自動(dòng)駕駛訓(xùn)練方式,形成端到端的模型。
不過(guò)訓(xùn)練是分階段訓(xùn)練,不是一上來(lái)就大規(guī)模訓(xùn)練。在軟件2.0的驅(qū)動(dòng)下,整個(gè)自動(dòng)駕駛算法的架構(gòu)也產(chǎn)生了很大的變化,包括感知、定位融合、規(guī)劃控制,分模塊設(shè)計(jì)。
目前對(duì)于使用深度學(xué)習(xí)形成端到端的過(guò)程,行業(yè)已經(jīng)形成共識(shí):無(wú)論是攝像頭還是雷達(dá),地圖或者其他信號(hào)包括導(dǎo)航,都可以通過(guò)一種編碼的方式Token化,比如卷積神經(jīng)網(wǎng)絡(luò)就可以認(rèn)為是一種編碼器,不同的傳感器將它編碼成想要的信息。同時(shí),各種控制命令、信號(hào)都可以編碼,例如地圖格式的轉(zhuǎn)換,最后把這些信息形成一個(gè)完整的對(duì)外輸出的Token,輸出給認(rèn)知和決策層。模型主要網(wǎng)絡(luò)也可以是Transformer類,或者類似的,最后通過(guò)decoding層直接生成最終的信號(hào),給到車輛執(zhí)行器。在過(guò)去一年,地平線的同事以第一作者的身份,在 CVPR 發(fā)表了一篇文章《基于 Transformer框架實(shí)現(xiàn)自動(dòng)駕駛端到端深度學(xué)習(xí)算法》,提到的架構(gòu)如上所述。這樣的架構(gòu)兼具可解釋性以及最終端到端的效果,在一些公開實(shí)驗(yàn)上,已經(jīng)看到了很好的潛力和表現(xiàn)。
這篇論文發(fā)表的時(shí)候附帶一個(gè)范例,有意思的是,雖然在整個(gè)訓(xùn)練過(guò)程中沒(méi)有顯性地給出紅綠燈或者其他交通規(guī)則形式,但在整個(gè)大規(guī)模訓(xùn)練后,汽車可以根據(jù)紅綠燈狀態(tài)啟停,這一過(guò)程中信息其實(shí)不在訓(xùn)練數(shù)據(jù)里,而是數(shù)據(jù)標(biāo)注里。
整個(gè)大模型其實(shí)對(duì)場(chǎng)景常識(shí)的認(rèn)知是能夠自動(dòng)通過(guò)預(yù)訓(xùn)練和參考過(guò)程學(xué)習(xí)。大家可能會(huì)問(wèn)這樣的算法架構(gòu)模型這個(gè)規(guī)模有多大?其實(shí),目前整個(gè)自動(dòng)駕駛模型,例如我們常見的這種大語(yǔ)言模型還是小得多,我們整個(gè)GPT語(yǔ)言模型想取得不錯(cuò)的效果,所需的數(shù)據(jù)訓(xùn)練量在幾個(gè)T級(jí)別。但是隨著算力增長(zhǎng),計(jì)算效率提升,不斷增大算力,效果還會(huì)繼續(xù)提升的。目前來(lái)講,整個(gè)transformer都是T級(jí)起步,10T~20T,最大可能要幾百個(gè)T。
未來(lái)網(wǎng)絡(luò)越來(lái)越大,這些都依賴硬件基礎(chǔ)設(shè)施。對(duì)于云端來(lái)說(shuō),我們可以通過(guò)并行計(jì)算集群,實(shí)現(xiàn)大規(guī)模算力需求,但在車端,受限于車端面積、散熱功耗等一系列約束條件,可能需要使用單芯片或者雙芯片來(lái)實(shí)現(xiàn)算力,所以對(duì)端上單芯片算力、算效要求其實(shí)非常大。而隨著整個(gè)大算力需求增長(zhǎng),可以發(fā)現(xiàn)卷積神經(jīng)網(wǎng)絡(luò)和Transformer在架構(gòu)上最大的區(qū)別還在于帶寬的分配。
相比于卷積神經(jīng)網(wǎng)絡(luò)來(lái)說(shuō),如果卷積神經(jīng)網(wǎng)絡(luò)常見的帶寬和計(jì)算的比通常是1:100到1:1000,而到Transformer這樣的架構(gòu),通常計(jì)算帶寬的需求和算力的需求比例大概是1:1到1:10。未來(lái)架構(gòu)里,芯片帶寬可能會(huì)成為新的核心瓶頸。從征程5到征程6,這兩大芯片都大幅度提高了片上帶寬以及帶寬相比算力的比值,從而能更好地支持BEV加transformer等更大模型的方案。BEV感知方面,這其實(shí)是相對(duì)于剛剛提到的端到端里第一個(gè)能夠落實(shí)到量產(chǎn)的計(jì)算平臺(tái)上的,最重要的一個(gè)感知算法。第一,過(guò)去我們都是先在2D圖像里做目標(biāo)的檢測(cè),然后把它通過(guò)攝像頭投射到3D里,這種技術(shù)的好處是整個(gè)計(jì)算非常直觀。但整個(gè)投影過(guò)程都是使用軟件的方式,沒(méi)辦法形成端到端。而BEV相比于這個(gè)傳統(tǒng)方案最大區(qū)別就是,它可以看到整個(gè)狀態(tài),通過(guò)一個(gè)上帝視角,對(duì)全局狀態(tài)有一個(gè)更好的感知和預(yù)測(cè)能力,更有全局意識(shí)。
基于BEV多模態(tài)前、中融合比較能夠容易地去融合多模態(tài)的傳感器,不同角度的攝像頭我們都可以通過(guò)一個(gè)全新網(wǎng)絡(luò)來(lái)對(duì)它進(jìn)行編碼,然后編碼之后把它投影到BEV視角下的形式。而激光雷達(dá)天然就具備3D的視角空間,所以我們可以讓激光雷達(dá)通過(guò)一些方式在3D空間形成一個(gè)特征,然后就比較容易做特征級(jí)別的對(duì)齊,在特征級(jí)拼接形成多模態(tài)。
相似的技術(shù)也可以用于超聲波、毫米波,在BEV空間編碼,之后進(jìn)行加工,最終形成感知結(jié)果。這種中融合的方式很容易去做多模態(tài)的傳感器融合,相較于后融合,整個(gè)架構(gòu)更加簡(jiǎn)單,易于訓(xùn)練。
基于征程5的BEV感知
在征程5上,我們已經(jīng)實(shí)現(xiàn)一套基于BEV的時(shí)空融合。除了這個(gè)空間和多模態(tài)以外,還有時(shí)間融合的框架,可以把多個(gè)攝像頭、多種傳感器,包括時(shí)間融合到整個(gè)框架里。這里面又可以分為輸入層,包括不同的傳感器,例如前視、周視、魚眼、激光雷達(dá)等。
通過(guò)BEV模型對(duì)整個(gè)圖像進(jìn)行編碼,投影到BEV的空間,雷達(dá)鏈路也是一樣的,之后再通過(guò)時(shí)空維度轉(zhuǎn)換,把這些東西集中表達(dá),最后通過(guò)一個(gè)神經(jīng)網(wǎng)絡(luò)和transformer架構(gòu)合成,到輸出層直接輸出。輸出包括3D檢測(cè)、物體跟蹤狀態(tài)、軌跡,以及車道線目標(biāo),車位靜態(tài)障礙物以及占用網(wǎng)絡(luò)及整個(gè)3D物體,整個(gè)端到端的系統(tǒng)可以從感知的目標(biāo)檢測(cè)到預(yù)測(cè),再到軌跡到預(yù)測(cè),全部都可以輸出。這里面很多是我們實(shí)際場(chǎng)景的實(shí)驗(yàn)結(jié)果,都是實(shí)車測(cè)試的:
第一,動(dòng)靜態(tài)通過(guò)BEV生成動(dòng)靜態(tài)結(jié)構(gòu),可以把所有的道路的動(dòng)靜態(tài)要素檢測(cè)出來(lái)。
第二,通過(guò)這種架構(gòu),通過(guò)transformer不僅生成了道路相關(guān)的物理結(jié)構(gòu)和信息,還生成了道路邏輯關(guān)系,例如車道之間的關(guān)聯(lián)信息,車道線之間的關(guān)系,這些信息對(duì)地圖都是非常有效的。
還有就是對(duì)所有目標(biāo)物都可以預(yù)測(cè)行為軌跡,這種行為預(yù)測(cè)方法可以讓我們提前對(duì)目標(biāo)物進(jìn)行行為預(yù)測(cè),對(duì)其他車輛行駛路徑可以預(yù)判,從而對(duì)自車行為進(jìn)行干預(yù)。
另外,算法也可以實(shí)現(xiàn)相對(duì)復(fù)雜場(chǎng)景下的自動(dòng)駕駛,例如左拐,右拐并線以及匝道口的博弈、匯出和對(duì)路邊靜止車輛自動(dòng)規(guī)避和避讓。
連線互動(dòng):BEV對(duì)芯片帶來(lái)的挑戰(zhàn)
此環(huán)節(jié)包含主持嘉賓周琳、元戎啟行副總裁劉軒、復(fù)睿智行CTO 周軼以及直播觀眾與余軼南博士的探討。Q:特斯拉最近公布將在V12版本上推出端到端的技術(shù),像transformer還是有很大容錯(cuò)率的,自動(dòng)駕駛對(duì)安全性要求很高,基于transformer大模型,我們可以通過(guò)哪些途徑提高安全性?A:安全的確是我們?cè)谧詣?dòng)駕駛上面臨的一個(gè)很大問(wèn)題,自動(dòng)駕駛安全可以分為兩個(gè)方面:
第一,是功能安全,主要指系統(tǒng)失效問(wèn)題,包括隨機(jī)失效,或者是某些確定性的場(chǎng)景下失效。
行業(yè)對(duì)失效推出了很多的應(yīng)對(duì)方式,例如硬件失效、軟件失效以及最近的模型失效可以通過(guò)監(jiān)控系統(tǒng)來(lái)診斷。如果系統(tǒng)失效,要將失效最小化從而降低風(fēng)險(xiǎn)。
第二,從某種意義上來(lái)講,AI是一種不確定的系統(tǒng)或者概率系統(tǒng),跟周邊的環(huán)境有關(guān),
不同場(chǎng)景下失效概率其實(shí)很低,我們所要確保的是不同場(chǎng)景失效概率盡可能低。如果某種場(chǎng)景下的失效概率是10的負(fù)6次方,甚至到10的負(fù)9次方,那從統(tǒng)計(jì)上來(lái)說(shuō),系統(tǒng)是安全的。當(dāng)然我們?nèi)孕枰P(guān)注這種場(chǎng)景下失效的危險(xiǎn)和風(fēng)險(xiǎn)是什么。如果失效后僅僅是需要安全停車,那么風(fēng)險(xiǎn)很小。如果失效后會(huì)發(fā)生嚴(yán)重的碰撞和事故,那么這種場(chǎng)景需要我們?nèi)袠I(yè)一起去一步步地解決。失效問(wèn)題一方面通過(guò)理論推導(dǎo)和實(shí)驗(yàn)解決,一方面需要通過(guò)實(shí)踐去檢驗(yàn)具體場(chǎng)景下的狀態(tài)。
Q:您剛剛介紹了在征程5上面的方案,地平線芯片目前已經(jīng)支持了BEV的方案,之前是不支持的。那這個(gè)轉(zhuǎn)變是基于什么樣的契機(jī)呢?
A:最重要的一點(diǎn)是芯片算力足夠支撐這樣的算法和計(jì)算規(guī)模。BEV算法其實(shí)在2015、2016年在學(xué)術(shù)界已經(jīng)被提出來(lái)了,那時(shí)我們的效果和2D效果還是有不少差距的。隨著近幾年芯片算力的提升,端到端系統(tǒng)算力指數(shù)級(jí)線性增加,有效算力增加。
Q:現(xiàn)在業(yè)內(nèi)有很多BEV方案,不同方案需要不同的算子,而基于深度學(xué)習(xí)的方案需要其他算子,那地平線對(duì)這些算子是都可以支持還是支持其中一部分?支持的力度和廣度怎么樣?
A:大部分的算子都是支持的,最大的區(qū)別在于架構(gòu)算力效率。如果整個(gè)計(jì)算是比較規(guī)整的,那效率很高,如果計(jì)算本身的跳變,例如內(nèi)存里的跳變,這個(gè)不規(guī)整性比較強(qiáng)的話,整個(gè)計(jì)算的效率就低。學(xué)術(shù)界的算法是多種多樣的,但是產(chǎn)業(yè)界各家產(chǎn)品的BEV架構(gòu)其實(shí)就兩種,這兩種模式算法其實(shí)各家做得都差不多,原因是在產(chǎn)品上要追求的不光是普通的實(shí)現(xiàn),還有計(jì)算的效果。在這樣的算力下,最大化計(jì)算結(jié)果是怎樣的,以及幀率的約束,包括像素分辨率的約束,大家基本是趨同的。所以學(xué)術(shù)圈的算法很熱鬧,產(chǎn)業(yè)界還是殊途同歸的。
Q:無(wú)論是transformer、占據(jù)網(wǎng)絡(luò)、BEV技術(shù)還是沒(méi)有解決z軸上的一些問(wèn)題,學(xué)術(shù)界和工業(yè)界對(duì)3D占據(jù)網(wǎng)絡(luò)還是比較感興趣的,這方面未來(lái)的規(guī)劃是怎樣的?
A:我們最近的量產(chǎn)項(xiàng)目已經(jīng)上了占用網(wǎng)絡(luò)、3D感知、預(yù)測(cè)這些功能,但我們發(fā)現(xiàn)如何使用這些算法是巨大的問(wèn)題。因?yàn)閭鹘y(tǒng)算法,主要是規(guī)控算法如何在規(guī)控層面使用BEV的點(diǎn)列,因?yàn)檫^(guò)去像我們L2這樣的系統(tǒng),例如車道都是用三次方程的表達(dá)形式,但這種方式在城區(qū)這種場(chǎng)景下是完全不可以的,所以需要退回到最原始的表達(dá)方式,也就是點(diǎn)列的方式,但是點(diǎn)列對(duì)于規(guī)控需要如何使用呢?這就是一個(gè)新問(wèn)題。
Q:您剛剛講到占用網(wǎng)絡(luò)如何使用的問(wèn)題,那今天不光是每一個(gè)格被占用,同時(shí)每一個(gè)格x、y、z三個(gè)方向的速度如何,這些信息需要綜合起來(lái),需要整個(gè)規(guī)控系統(tǒng)轉(zhuǎn)化為數(shù)據(jù)驅(qū)動(dòng),或者是優(yōu)化搜索的系統(tǒng),只有這樣才能使用。您剛剛提到規(guī)控是很重要的模塊,那么地平線有沒(méi)有針對(duì)規(guī)控有更特別的設(shè)計(jì)和優(yōu)化?
A:從神經(jīng)網(wǎng)絡(luò)的角度來(lái)講,我個(gè)人認(rèn)為,大部分的算法尤其是在后端,基本都趨于transformer加Token這種表達(dá)方式。其次,我們對(duì)transformer架構(gòu)做了很多工作,例如我們的一篇文章,就有提到其實(shí)對(duì)整個(gè)后端,包括對(duì)目標(biāo)、地圖的編碼以及對(duì)軌跡預(yù)測(cè)、使用,規(guī)控算法的使用來(lái)說(shuō),全是用一種方法調(diào)整去實(shí)現(xiàn)的。我們?cè)谝粌赡昵伴_始做下一代芯片,也是征程5的下一代芯片整個(gè)算力規(guī)劃的時(shí)候,我們的判斷是,感知未來(lái)自芯片算力上的規(guī)模需求可能只占1/3,甚至更少,剩下2/3或者1/3用來(lái)做什么,需要做環(huán)境理解。環(huán)境理解不是指感知的環(huán)境,感知部分其實(shí)已經(jīng)把所有的車道線、道路邊緣等全部識(shí)別了,那環(huán)境理解最重要的是理解環(huán)境要素之間的關(guān)系。例如紅綠燈和十字路口的關(guān)系,這些需要感知和大量數(shù)據(jù)分析推理而來(lái)。對(duì)道路的表達(dá)形式已經(jīng)開始變成點(diǎn)列,其實(shí)無(wú)非就是要在這些點(diǎn)位之間表達(dá)二階關(guān)系。對(duì)規(guī)控來(lái)說(shuō),其實(shí)就是要去講清楚自車形式軌跡,軌跡與軌跡之間也是有關(guān)聯(lián)的。從這個(gè)角度來(lái)講,其實(shí)所有后端的架構(gòu)都可以被統(tǒng)一。
Q:剛剛聊到芯片算力,那目前地平線的合作伙伴也用了通用的芯片,那么從你們的角度出發(fā),基于征程5的BEV方案,相較于友商的芯片方案,性能上相比怎么樣?
A:這個(gè)問(wèn)題需要深度橫評(píng),因?yàn)槲覄倓傊v到算力飆升只是代表了加陣列的數(shù)量以及整個(gè)計(jì)算的主頻,就相當(dāng)于我有那么多計(jì)算單元,但是怎么把它用起來(lái),怎么把計(jì)算結(jié)果保存,整個(gè)流程如何進(jìn)行其實(shí)是很難確定的。而每家芯片這部分的技術(shù)都是核心,很難通過(guò)理論分析實(shí)現(xiàn),尤其是作為第三方也很難評(píng)測(cè)。最好的方式就是像手機(jī)跑分一樣評(píng)測(cè)。
Q:我們的目標(biāo)平臺(tái)是征程5,那在我們開發(fā)過(guò)程中,怎么保證我們未來(lái)轉(zhuǎn)到征程5不會(huì)做太多額外工作?
A:整個(gè)芯片來(lái)講:
第一,兼容大部分芯片,能夠使用我們的編程接口,能擴(kuò)大一些自定義;
第二,假設(shè)我們今天已經(jīng)有一個(gè)結(jié)構(gòu),那我們可以通過(guò)工具鏈里的工具來(lái)適配;
第三點(diǎn),我們不但能去推動(dòng)性能上的提升,還能告訴我們網(wǎng)絡(luò)設(shè)計(jì)者整個(gè)神經(jīng)網(wǎng)絡(luò)節(jié)點(diǎn)信息,提供改進(jìn)空間。
如果芯片的實(shí)際使用效率很低,這其實(shí)是一種巨大的浪費(fèi)。
Q:在BEV時(shí)代,還是需要大量的數(shù)據(jù)標(biāo)注,那地平線是如何降低人工標(biāo)注數(shù)據(jù)在整個(gè)訓(xùn)練環(huán)節(jié)中的依賴?
A:我們講軟件2.0,講端到端的網(wǎng)絡(luò),包括我們現(xiàn)在講的大規(guī)模訓(xùn)練,里面最大的挑戰(zhàn)不光來(lái)自模型結(jié)構(gòu)本身,其實(shí)很大的挑戰(zhàn)來(lái)自怎么去準(zhǔn)備訓(xùn)練。過(guò)去我們可以在2D空間對(duì)圖片做手工標(biāo)注,很小的一張圖的成本就有好幾千,但我們也可以通過(guò)一些大模型去做,我們通過(guò)人工的方式做,把成本控制住,做一套完整的自動(dòng)化工序。目前友商有去下載一些模型,使用公開的數(shù)據(jù),呈現(xiàn)的效果很好,但是這些東西放到實(shí)際的系統(tǒng)上去應(yīng)用并不可行,因?yàn)槔锩嫒鄙僖惶淄暾亩说蕉说南到y(tǒng)。我們就做了這樣一套系統(tǒng),后續(xù)會(huì)命名,這套系統(tǒng)包括大規(guī)模數(shù)據(jù)標(biāo)志、自動(dòng)化標(biāo)志、大模型的訓(xùn)練和評(píng)測(cè),這樣整個(gè)云端系統(tǒng)才能在后臺(tái)、在前臺(tái)的BBA層真正發(fā)揮作用。
Q:車展上我們公司發(fā)布了基于毫米波雷達(dá)加整個(gè)視覺的網(wǎng)絡(luò)算法,但我們認(rèn)為這種算法只是解決了空間探測(cè)能力問(wèn)題,但實(shí)際在自動(dòng)駕駛中,像您剛剛說(shuō)的語(yǔ)音識(shí)別,對(duì)不同目標(biāo)行為預(yù)測(cè),在自動(dòng)駕駛中可能比感知更重要一點(diǎn)。那怎樣把網(wǎng)絡(luò)跟語(yǔ)音信息在同一個(gè)結(jié)構(gòu)里展現(xiàn)出來(lái),然后讓規(guī)控做得更好?是只用傳統(tǒng)網(wǎng)絡(luò)做?還是把這兩個(gè)結(jié)合做?
A:最大的挑戰(zhàn)不在于網(wǎng)絡(luò)本身,最大的問(wèn)題在于數(shù)據(jù)怎么標(biāo)注,因?yàn)樾枰龃笠?guī)模數(shù)據(jù)訓(xùn)練,所以整個(gè)數(shù)據(jù)散度以及規(guī)模都是比較大的。在我看來(lái),今天能把這些事情做好的公司不多。另外還需要大規(guī)模數(shù)據(jù)采集,采集所有量產(chǎn)車的數(shù)據(jù),還需要比較廉價(jià)的數(shù)據(jù)采集方式獲取數(shù)據(jù),根據(jù)數(shù)據(jù)去做一些增強(qiáng),從而生成我們所需的標(biāo)準(zhǔn)。這個(gè)過(guò)程需要清洗數(shù)據(jù),具體的行為方式很像做眾包地圖,但跟眾包地圖不完全一樣,因?yàn)樾枰l(fā)現(xiàn)更多動(dòng)態(tài)信息、關(guān)聯(lián)信息,這個(gè)過(guò)程是需要自動(dòng)化的。學(xué)術(shù)界有一些算法可以去做這些事情,這也是我們下一步需要攻克的。
Q:關(guān)于地平線征程5甚至征程6芯片,如何對(duì)transformer進(jìn)行硬加速?
A:這方面的網(wǎng)絡(luò)結(jié)構(gòu)并不復(fù)雜,主要還是用一些傳統(tǒng)的算子,我們本身就是支持的,問(wèn)題的核心是如何把算子跑到最高。經(jīng)過(guò)我們測(cè)試發(fā)現(xiàn),行業(yè)內(nèi)典型芯片利用率基本在30%-40%,我們其實(shí)在做很多新型架構(gòu)包括總線、帶寬方面一些優(yōu)化,希望把整個(gè)芯片的利用率做到50%以上。這也是我們必須做的。
Q:征程5目前是為理想Pro這個(gè)平臺(tái)搭建的,如果征程5不含激光雷達(dá),我們是否會(huì)去做全場(chǎng)景的BEV方案,如果不使用激光雷達(dá),它可以在哪些場(chǎng)景包括城市,是否可以開高階輔助駕駛。也就是說(shuō),不搭載激光雷達(dá)的方案能否實(shí)現(xiàn)純視覺BEV?
A:在我們的芯片上開發(fā)BEV算法其實(shí)與激光雷達(dá)無(wú)直接關(guān)系。剛剛講過(guò),BEV這個(gè)架構(gòu)可以支持多模態(tài),有無(wú)激光雷達(dá)皆可。有激光雷達(dá)的好處在于對(duì)于整個(gè)的方案準(zhǔn)確度,尤其是近距離的準(zhǔn)確度會(huì)更好,對(duì)于目標(biāo)的距離角度的準(zhǔn)確性、穩(wěn)定性會(huì)更好。激光雷達(dá)也有它的缺點(diǎn),例如惡劣天氣,因?yàn)樗侵鲃?dòng)光,存在反射的問(wèn)題。從認(rèn)知上來(lái)講,第一基于BEV架構(gòu)才有可能做城市NOA,高速NOA也可以拿來(lái)加強(qiáng),但短期性能提升不明顯,長(zhǎng)期是有幫助的。高速NOA也是可以用BEV做保持系統(tǒng)。征程5系統(tǒng)第一個(gè)量產(chǎn)項(xiàng)目里還未使用,但第二個(gè)會(huì)全部更新BEV架構(gòu),合作也會(huì)全部升級(jí)這個(gè)系統(tǒng)。BEV也可以優(yōu)化高速上一些方案,提升效率。
講述 | 余軼南
編輯 | Amy