加入星計(jì)劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專(zhuān)業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長(zhǎng)期合作伙伴
立即加入
  • 正文
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

Waymo的自動(dòng)駕駛訓(xùn)練數(shù)據(jù)集WOD

2022/10/15
2652
閱讀需 13 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

Waymo自2008年就開(kāi)始研發(fā)自動(dòng)駕駛,也是業(yè)內(nèi)公認(rèn)自動(dòng)駕駛技術(shù)先行者,但在商業(yè)化道路上進(jìn)展不利,只有軟硬一體才是自動(dòng)駕駛的出路,所以自研芯片后的Waymo或許能翻身,雖然自研芯片有點(diǎn)晚了。

有關(guān)Waymo的自動(dòng)駕駛訓(xùn)練數(shù)據(jù)集(Waymo Open Dataset,簡(jiǎn)稱(chēng)WOD)或者說(shuō)公開(kāi)Benchmark有兩篇論文,一篇是2020年5月的《Scalability in Perception for Autonomous Driving: Waymo Open Dataset》,另一篇是2021年4月的《Large Scale Interactive Motion Forecasting for Autonomous Driving :The WAYMO OPEN MOTION DATASET》。

WOD也分成兩部分,一部分是Perception dataset,有2030個(gè)場(chǎng)景,目前最新版為2022年6月升級(jí)的v1.4;另一部分是Motion dataset,有目標(biāo)軌跡追蹤和3D同步地圖,有103354個(gè)場(chǎng)景,目前最新版為2021年8月升級(jí)的v1.1版。

谷歌舉辦過(guò)WayMo Open Dataset Challenge,響應(yīng)者不少,3D Detection的第一名是國(guó)內(nèi)知名芯片公司地平線,第二名是香港中文大學(xué),第三名則是致力商用車(chē)無(wú)人駕駛的圖森未來(lái)。2D Detection方面,圖森未來(lái)、同濟(jì)大學(xué)和中科院第一,地平線第二,中山大學(xué)和華為諾亞方舟實(shí)驗(yàn)室第三。Waymo在業(yè)內(nèi)的地位可見(jiàn)一斑。
首先來(lái)看Perception dataset。
 

Waymo的傳感器布局,有多達(dá)5個(gè)激光雷達(dá),前面左中右各一個(gè),車(chē)頂一個(gè),車(chē)尾一個(gè)。5個(gè)攝像頭也都在車(chē)頂。

上表的“Ours”就是Waymo的數(shù)據(jù)集,這是4個(gè)數(shù)據(jù)集的對(duì)比,KITTI用的是一臺(tái)Velodyne的HDL-64E 64線激光雷達(dá),早期產(chǎn)品單回波下其每秒有130萬(wàn)點(diǎn)輸出,后來(lái)的HDL-64E S3雙回波是220萬(wàn)點(diǎn)每秒輸出。未知KITTI是用的單回波還是雙回波,早期激光雷達(dá)單回波的可能性大一點(diǎn)。盡管Waymo用了5個(gè)激光雷達(dá),但每幀平均點(diǎn)數(shù)比KITTI沒(méi)高太多,并且Waymo的5個(gè)激光雷達(dá)均是雙回波。

上表為Waymo激光雷達(dá)的參數(shù),并未公布每秒輸出點(diǎn)數(shù),Waymo自制的激光雷達(dá)應(yīng)該不如Velodyne的HDL-64E 。HDL-64E的VFOV是+2°至-24.8°,垂直角分辨率是0.4°,Waymo的VFOV是20°,如果也是64線的話,那么垂直角度分辨率應(yīng)該是0.3°。

上表為Waymo 5個(gè)攝像頭參數(shù),最高只有200萬(wàn)像素,而Waymo聲稱(chēng)自己的無(wú)人車(chē)用了500萬(wàn)像素的攝像頭,并且有些媒體聲稱(chēng)使用了14個(gè)500萬(wàn)像素?cái)z像頭,顯然是夸張了,Waymo不會(huì)為測(cè)試數(shù)據(jù)集單獨(dú)搞一套傳感器配置,Waymo無(wú)人車(chē)的實(shí)際像素應(yīng)該就是200萬(wàn)。

坐標(biāo)系方面,采用右手規(guī)則。全局坐標(biāo)是East-North-Up體系,車(chē)輛姿態(tài)與全局坐標(biāo)系定義為4*4變換矩陣。A vehicle pose is defined as a 4x4 transform matrix from the vehicle frame to the global frame。相機(jī)坐標(biāo)系方面,使用外參矩陣,即從全局(世界)坐標(biāo)系到相機(jī)坐標(biāo)系的變換。激光雷達(dá)使用直角坐標(biāo)系。

標(biāo)注方面,每一個(gè)3D物體都有7自由度的標(biāo)注,包括基于中央坐標(biāo)點(diǎn)的長(zhǎng)寬高以及3D Box的長(zhǎng)寬高,還有航向角。當(dāng)然還有物體的ID和分類(lèi)。對(duì)于鳥(niǎo)瞰(BEV)3D目標(biāo),設(shè)置為5自由度,不需要基于中央坐標(biāo)點(diǎn)的長(zhǎng)寬高。

標(biāo)注方面,考慮到了人工標(biāo)注費(fèi)時(shí)費(fèi)力,和華為一樣,Waymo也有半監(jiān)督學(xué)習(xí),也就是偽標(biāo)簽學(xué)習(xí),也有叫自動(dòng)標(biāo)簽系統(tǒng),這些非人工標(biāo)注的自然是偽標(biāo)簽,但其也并非完全的毫無(wú)根據(jù)。首先,在人工標(biāo)注真值的數(shù)據(jù)上訓(xùn)練模型,然后使用經(jīng)過(guò)訓(xùn)練的模型來(lái)預(yù)測(cè)無(wú)標(biāo)簽數(shù)據(jù)的標(biāo)簽,從而創(chuàng)建偽標(biāo)簽。此外,將標(biāo)簽數(shù)據(jù)和新生成的偽標(biāo)簽數(shù)據(jù)結(jié)合起來(lái)作為新的訓(xùn)練數(shù)據(jù)。大量使用自動(dòng)標(biāo)簽或偽標(biāo)簽就是半監(jiān)督學(xué)習(xí)。這樣的結(jié)果肯定不如全人工標(biāo)注來(lái)得好,可是就算Waymo財(cái)大氣粗也得考慮成本,這種3D目標(biāo)標(biāo)注是需要標(biāo)注工具的,且異??菰餆o(wú)味,至少要理科院校的大一學(xué)生才能勝任,同時(shí)還要心細(xì),不嫌枯燥,這種人是不好找的,成本不低。

Waymo的3D自動(dòng)標(biāo)簽管線

與其他家不同的是Waymo使用非板載系統(tǒng)進(jìn)行自動(dòng)標(biāo)簽,Waymo認(rèn)為板載系統(tǒng)資源受到限制,效果不會(huì)太好,所以稱(chēng)之為《Offboard 3D Object Detection from Point Cloud Sequences》。

感知WOD有2030個(gè)場(chǎng)景,分訓(xùn)練和評(píng)估兩部分,主要在鳳凰城、山景城和舊金山采集,大部分為白天,天氣晴好。訓(xùn)練集解壓縮后大小為812.7GB,驗(yàn)證集為204.9GB。

感知WOD分4大類(lèi),3D目標(biāo)檢測(cè)與追蹤,2D目標(biāo)檢測(cè)與追蹤。

單一目標(biāo)的測(cè)試基準(zhǔn)線

多目標(biāo)包含追蹤的測(cè)試基準(zhǔn)線

高于基準(zhǔn)線就可算優(yōu)秀,Waymo對(duì)車(chē)輛檢測(cè)IoU設(shè)置為0.7,行人為0.5,行人的閾值較低,這也可看出行人檢測(cè)難度很高。

WOD的感知測(cè)試數(shù)據(jù)集平平無(wú)奇,不過(guò)動(dòng)作預(yù)測(cè)測(cè)試數(shù)據(jù)集可謂獨(dú)樹(shù)一幟,非常有水平。它包含103,354 segments,每個(gè)segment長(zhǎng)度為20s,10Hz,包含object tracks和map data,這些segment又被分成9s的窗口,包括1s歷史和8s未來(lái)。覆蓋6個(gè)城市,1750公里的里程,570小時(shí)的駕駛時(shí)間。

包含場(chǎng)景預(yù)測(cè)和動(dòng)作預(yù)測(cè)的數(shù)據(jù)集對(duì)比,“Ours”就是Waymo,Lyft雖有1118小時(shí),但只有10公里,樣本量太少了。Argo的時(shí)間太短,只有5秒,前后關(guān)聯(lián)性不明顯,缺乏預(yù)測(cè)的意義。有3D Box標(biāo)注的只有Waymo和安波福,但安波福的幀率太低了,只有2Hz,就算市區(qū)低速場(chǎng)景也太低。綜合看只有Waymo的場(chǎng)景預(yù)測(cè)和動(dòng)作預(yù)測(cè)的數(shù)據(jù)集才真正有意義。Waymo覆蓋六個(gè)城市,包括鳳凰城、舊金山、西雅圖、山景城、底特律和洛杉磯。

對(duì)于無(wú)人駕駛來(lái)說(shuō),最難的就是預(yù)測(cè)行人或車(chē)輛的下一步軌跡,即行為預(yù)測(cè)或動(dòng)作軌跡預(yù)測(cè)。這已經(jīng)超越了感知那個(gè)地步,但需要良好的3D感知和軌跡追蹤能力做基礎(chǔ),行為預(yù)測(cè)通常都使用LTSM,而不是CNN。絕大多數(shù)數(shù)據(jù)集的核心還是感知,而Waymo要更進(jìn)一步。 

數(shù)據(jù)集中訓(xùn)練占70%,包括未來(lái)軌跡真值,validation占15%,測(cè)試占15%。每個(gè)場(chǎng)景有20秒時(shí)間,Scenario代表一個(gè)場(chǎng)景,也就是一段時(shí)間內(nèi)的交通情況,包括自動(dòng)駕駛車(chē)自身,其它的交通參與者(車(chē)輛、行人),以及交通燈在20s內(nèi)的軌跡和狀態(tài),同時(shí)還包括了道路信息即地圖。也就是說(shuō)Scenario是一條數(shù)據(jù)的最小單元。從20秒內(nèi)抽出9.1秒的時(shí)間窗口,頻率為10Hz,即91幀,10個(gè)歷史樣本,1個(gè)現(xiàn)在時(shí)樣本,80個(gè)未來(lái)幀,也就是說(shuō)要預(yù)測(cè)未來(lái)8秒的行動(dòng)軌跡,Waymo認(rèn)為預(yù)測(cè)時(shí)間越長(zhǎng)越安全。

標(biāo)注系統(tǒng)和感知數(shù)據(jù)集一樣,也是別出心裁的自動(dòng)標(biāo)簽系統(tǒng)。論文為《Auto4D: Learning to Label 4D Objects from Sequential Point Clouds》所謂4D就是加了時(shí)間戳。順便說(shuō)一句,這篇論文不是Waymo的,而是Uber和多倫多大學(xué)的。

4D自動(dòng)標(biāo)簽系統(tǒng)

Waymo Open Motion Dataset示例

預(yù)測(cè)評(píng)價(jià)指標(biāo)有平均位移誤差:Average displacement error(ADE),每個(gè)預(yù)測(cè)位置和每個(gè)真值位置之間的平均歐式距離差值。

終點(diǎn)位移誤差(Final displacement error,簡(jiǎn)稱(chēng)FDE):終點(diǎn)預(yù)測(cè)位置和終點(diǎn)真值位置之間的平均歐式距離差值。

空間重疊率(Overlap Rate):總重疊數(shù)與進(jìn)行多模態(tài)預(yù)測(cè)次數(shù)的比值。一個(gè)樣本e對(duì)應(yīng)的一次多模態(tài)預(yù)測(cè)中,最高置信度的預(yù)測(cè)里,每一個(gè)時(shí)間步step,一個(gè)對(duì)象與另一個(gè)真實(shí)情況或該預(yù)測(cè)情況的其他對(duì)象的3D邊界框存在重疊,則重疊數(shù)加1。

漏檢率(Miss Rate,簡(jiǎn)稱(chēng)MR):整個(gè)數(shù)據(jù)集在t時(shí)刻的錯(cuò)誤比例。對(duì)于一個(gè)樣本,給定t時(shí)刻,所有K個(gè)聯(lián)合預(yù)測(cè),都存在某個(gè)對(duì)象a的位置,其指示函數(shù)IsMatch(.)為0,則該時(shí)刻MR為1。

平均精度期望(mAP):先對(duì)每個(gè)對(duì)象的真實(shí)軌跡按定義的運(yùn)動(dòng)方向分為8類(lèi)(buckets),用上面的IsMatch(.)來(lái)定義TP,F(xiàn)P等(但是對(duì)于都Match的情況,僅認(rèn)為置信度高的為T(mén)P),在各類(lèi)內(nèi)按置信度排序TP、FP后,根據(jù)各個(gè)TP的準(zhǔn)確度(precision)求平均(置信度越高的TP排在前面,對(duì)AP的影響越大),再對(duì)各個(gè)類(lèi)別的AP求算數(shù)平均。

Waymo的Baseline基線成績(jī),rg代表道路拓?fù)?,ts代表交通信號(hào),hi代表high-order interactions,rg基本可看做高精度地圖,這對(duì)模型預(yù)測(cè)很有幫助。mAP的值遠(yuǎn)低于3D目標(biāo)檢測(cè),顯然預(yù)測(cè)目標(biāo)軌跡的深度學(xué)習(xí)還非常不成熟。

交互式interactive的成績(jī)就更差了,顯然預(yù)測(cè)目標(biāo)軌跡的深度學(xué)習(xí)還有很長(zhǎng)的路要走。

下一篇我們來(lái)解讀最接近實(shí)戰(zhàn)的數(shù)據(jù)集,安波福的nuScenes。

Waymo

Waymo

Waycom,第一家替代電信運(yùn)營(yíng)商IDF中的云,新阿基坦。電信、主機(jī)和信息管理器。100%云電話。

Waycom,第一家替代電信運(yùn)營(yíng)商IDF中的云,新阿基坦。電信、主機(jī)和信息管理器。100%云電話。收起

查看更多

相關(guān)推薦

電子產(chǎn)業(yè)圖譜

佐思汽車(chē)研究:致力于汽車(chē)、TMT、新能源(特別是新能源汽車(chē)、智能汽車(chē)、車(chē)聯(lián)網(wǎng))領(lǐng)域的產(chǎn)業(yè)研究、專(zhuān)項(xiàng)調(diào)研、戰(zhàn)略規(guī)劃和投資咨詢(xún)服務(wù)。