四虎影视884a精品国产,国产国产精品人在线视

Waymo自2008年就開始研發(fā)自動駕駛，也是業(yè)內(nèi)公認(rèn)自動駕駛技術(shù)先行者，但在商業(yè)化道路上進(jìn)展不利，只有軟硬一體才是自動駕駛的出路，所以自研芯片后的Waymo或許能翻身，雖然自研芯片有點(diǎn)晚了。

有關(guān)Waymo的自動駕駛訓(xùn)練數(shù)據(jù)集（Waymo Open Dataset，簡稱WOD）或者說公開Benchmark有兩篇論文，一篇是2020年5月的《Scalability in Perception for Autonomous Driving: Waymo Open Dataset》，另一篇是2021年4月的《Large Scale Interactive Motion Forecasting for Autonomous Driving :The WAYMO OPEN MOTION DATASET》。

WOD也分成兩部分，一部分是Perception dataset，有2030個場景，目前最新版為2022年6月升級的v1.4；另一部分是Motion dataset，有目標(biāo)軌跡追蹤和3D同步地圖，有103354個場景，目前最新版為2021年8月升級的v1.1版。

谷歌舉辦過WayMo Open Dataset Challenge，響應(yīng)者不少，3D Detection的第一名是國內(nèi)知名芯片公司地平線，第二名是香港中文大學(xué)，第三名則是致力商用車無人駕駛的圖森未來。2D Detection方面，圖森未來、同濟(jì)大學(xué)和中科院第一，地平線第二，中山大學(xué)和華為諾亞方舟實(shí)驗(yàn)室第三。Waymo在業(yè)內(nèi)的地位可見一斑。

首先來看Perception dataset。

Waymo的傳感器布局，有多達(dá)5個激光雷達(dá)，前面左中右各一個，車頂一個，車尾一個。5個攝像頭也都在車頂。

上表的“Ours”就是Waymo的數(shù)據(jù)集，這是4個數(shù)據(jù)集的對比，KITTI用的是一臺Velodyne的HDL-64E 64線激光雷達(dá)，早期產(chǎn)品單回波下其每秒有130萬點(diǎn)輸出，后來的HDL-64E S3雙回波是220萬點(diǎn)每秒輸出。未知KITTI是用的單回波還是雙回波，早期激光雷達(dá)單回波的可能性大一點(diǎn)。盡管Waymo用了5個激光雷達(dá)，但每幀平均點(diǎn)數(shù)比KITTI沒高太多，并且Waymo的5個激光雷達(dá)均是雙回波。

上表為Waymo激光雷達(dá)的參數(shù)，并未公布每秒輸出點(diǎn)數(shù)，Waymo自制的激光雷達(dá)應(yīng)該不如Velodyne的HDL-64E 。HDL-64E的VFOV是+2°至-24.8°，垂直角分辨率是0.4°，Waymo的VFOV是20°，如果也是64線的話，那么垂直角度分辨率應(yīng)該是0.3°。

上表為Waymo 5個攝像頭參數(shù)，最高只有200萬像素，而Waymo聲稱自己的無人車用了500萬像素的攝像頭，并且有些媒體聲稱使用了14個500萬像素?cái)z像頭，顯然是夸張了，Waymo不會為測試數(shù)據(jù)集單獨(dú)搞一套傳感器配置，Waymo無人車的實(shí)際像素應(yīng)該就是200萬。

坐標(biāo)系方面，采用右手規(guī)則。全局坐標(biāo)是East-North-Up體系，車輛姿態(tài)與全局坐標(biāo)系定義為4*4變換矩陣。A vehicle pose is defined as a 4x4 transform matrix from the vehicle frame to the global frame。相機(jī)坐標(biāo)系方面，使用外參矩陣，即從全局（世界）坐標(biāo)系到相機(jī)坐標(biāo)系的變換。激光雷達(dá)使用直角坐標(biāo)系。

標(biāo)注方面，每一個3D物體都有7自由度的標(biāo)注，包括基于中央坐標(biāo)點(diǎn)的長寬高以及3D Box的長寬高，還有航向角。當(dāng)然還有物體的ID和分類。對于鳥瞰（BEV）3D目標(biāo)，設(shè)置為5自由度，不需要基于中央坐標(biāo)點(diǎn)的長寬高。

標(biāo)注方面，考慮到了人工標(biāo)注費(fèi)時費(fèi)力，和華為一樣，Waymo也有半監(jiān)督學(xué)習(xí)，也就是偽標(biāo)簽學(xué)習(xí)，也有叫自動標(biāo)簽系統(tǒng)，這些非人工標(biāo)注的自然是偽標(biāo)簽，但其也并非完全的毫無根據(jù)。首先，在人工標(biāo)注真值的數(shù)據(jù)上訓(xùn)練模型，然后使用經(jīng)過訓(xùn)練的模型來預(yù)測無標(biāo)簽數(shù)據(jù)的標(biāo)簽，從而創(chuàng)建偽標(biāo)簽。此外，將標(biāo)簽數(shù)據(jù)和新生成的偽標(biāo)簽數(shù)據(jù)結(jié)合起來作為新的訓(xùn)練數(shù)據(jù)。大量使用自動標(biāo)簽或偽標(biāo)簽就是半監(jiān)督學(xué)習(xí)。這樣的結(jié)果肯定不如全人工標(biāo)注來得好，可是就算Waymo財(cái)大氣粗也得考慮成本，這種3D目標(biāo)標(biāo)注是需要標(biāo)注工具的，且異常枯燥無味，至少要理科院校的大一學(xué)生才能勝任，同時還要心細(xì)，不嫌枯燥，這種人是不好找的，成本不低。

Waymo的3D自動標(biāo)簽管線

與其他家不同的是Waymo使用非板載系統(tǒng)進(jìn)行自動標(biāo)簽，Waymo認(rèn)為板載系統(tǒng)資源受到限制，效果不會太好，所以稱之為《Offboard 3D Object Detection from Point Cloud Sequences》。

感知WOD有2030個場景，分訓(xùn)練和評估兩部分，主要在鳳凰城、山景城和舊金山采集，大部分為白天，天氣晴好。訓(xùn)練集解壓縮后大小為812.7GB，驗(yàn)證集為204.9GB。

感知WOD分4大類，3D目標(biāo)檢測與追蹤，2D目標(biāo)檢測與追蹤。

單一目標(biāo)的測試基準(zhǔn)線

多目標(biāo)包含追蹤的測試基準(zhǔn)線

高于基準(zhǔn)線就可算優(yōu)秀，Waymo對車輛檢測IoU設(shè)置為0.7，行人為0.5，行人的閾值較低，這也可看出行人檢測難度很高。

WOD的感知測試數(shù)據(jù)集平平無奇，不過動作預(yù)測測試數(shù)據(jù)集可謂獨(dú)樹一幟，非常有水平。它包含103,354 segments，每個segment長度為20s，10Hz，包含object tracks和map data，這些segment又被分成9s的窗口，包括1s歷史和8s未來。覆蓋6個城市，1750公里的里程，570小時的駕駛時間。

包含場景預(yù)測和動作預(yù)測的數(shù)據(jù)集對比，“Ours”就是Waymo，Lyft雖有1118小時，但只有10公里，樣本量太少了。Argo的時間太短，只有5秒，前后關(guān)聯(lián)性不明顯，缺乏預(yù)測的意義。有3D Box標(biāo)注的只有Waymo和安波福，但安波福的幀率太低了，只有2Hz，就算市區(qū)低速場景也太低。綜合看只有Waymo的場景預(yù)測和動作預(yù)測的數(shù)據(jù)集才真正有意義。Waymo覆蓋六個城市，包括鳳凰城、舊金山、西雅圖、山景城、底特律和洛杉磯。

對于無人駕駛來說，最難的就是預(yù)測行人或車輛的下一步軌跡，即行為預(yù)測或動作軌跡預(yù)測。這已經(jīng)超越了感知那個地步，但需要良好的3D感知和軌跡追蹤能力做基礎(chǔ)，行為預(yù)測通常都使用LTSM，而不是CNN。絕大多數(shù)數(shù)據(jù)集的核心還是感知，而Waymo要更進(jìn)一步。

數(shù)據(jù)集中訓(xùn)練占70%，包括未來軌跡真值，validation占15%，測試占15%。每個場景有20秒時間，Scenario代表一個場景，也就是一段時間內(nèi)的交通情況，包括自動駕駛車自身，其它的交通參與者（車輛、行人），以及交通燈在20s內(nèi)的軌跡和狀態(tài)，同時還包括了道路信息即地圖。也就是說Scenario是一條數(shù)據(jù)的最小單元。從20秒內(nèi)抽出9.1秒的時間窗口，頻率為10Hz，即91幀，10個歷史樣本，1個現(xiàn)在時樣本，80個未來幀，也就是說要預(yù)測未來8秒的行動軌跡，Waymo認(rèn)為預(yù)測時間越長越安全。

標(biāo)注系統(tǒng)和感知數(shù)據(jù)集一樣，也是別出心裁的自動標(biāo)簽系統(tǒng)。論文為《Auto4D: Learning to Label 4D Objects from Sequential Point Clouds》所謂4D就是加了時間戳。順便說一句，這篇論文不是Waymo的，而是Uber和多倫多大學(xué)的。

4D自動標(biāo)簽系統(tǒng)

Waymo Open Motion Dataset示例

預(yù)測評價(jià)指標(biāo)有平均位移誤差：Average displacement error（ADE），每個預(yù)測位置和每個真值位置之間的平均歐式距離差值。

終點(diǎn)位移誤差（Final displacement error，簡稱FDE）：終點(diǎn)預(yù)測位置和終點(diǎn)真值位置之間的平均歐式距離差值。

空間重疊率（Overlap Rate）：總重疊數(shù)與進(jìn)行多模態(tài)預(yù)測次數(shù)的比值。一個樣本e對應(yīng)的一次多模態(tài)預(yù)測中，最高置信度的預(yù)測里，每一個時間步step，一個對象與另一個真實(shí)情況或該預(yù)測情況的其他對象的3D邊界框存在重疊，則重疊數(shù)加1。

漏檢率（Miss Rate，簡稱MR）：整個數(shù)據(jù)集在t時刻的錯誤比例。對于一個樣本，給定t時刻，所有K個聯(lián)合預(yù)測，都存在某個對象a的位置，其指示函數(shù)IsMatch(.)為0，則該時刻MR為1。

平均精度期望（mAP）：先對每個對象的真實(shí)軌跡按定義的運(yùn)動方向分為8類（buckets），用上面的IsMatch(.)來定義TP，F(xiàn)P等（但是對于都Match的情況，僅認(rèn)為置信度高的為TP），在各類內(nèi)按置信度排序TP、FP后，根據(jù)各個TP的準(zhǔn)確度（precision）求平均（置信度越高的TP排在前面，對AP的影響越大），再對各個類別的AP求算數(shù)平均。

Waymo的Baseline基線成績，rg代表道路拓?fù)?，ts代表交通信號，hi代表high-order interactions，rg基本可看做高精度地圖，這對模型預(yù)測很有幫助。mAP的值遠(yuǎn)低于3D目標(biāo)檢測，顯然預(yù)測目標(biāo)軌跡的深度學(xué)習(xí)還非常不成熟。