啊…这是在车里,亚洲中文字幕无码乱线,亞洲國產日產無碼精品

曹原發(fā)自副駕寺
智能車參考 | 公眾號(hào) AI4Auto

智能車賽道，藏著一個(gè)最隱秘的AI視覺玩家。

這個(gè)玩家尚未官宣任何智能車相關(guān)的業(yè)務(wù)進(jìn)展，但又在最核心、最前沿、最被渴求的自動(dòng)駕駛系統(tǒng)能力上屢屢展現(xiàn)競爭力——全球AI頂會(huì)冠軍級(jí)的統(tǒng)治力。

不僅具體技術(shù)上突出，在目標(biāo)檢測、語義分割、視覺推理等方面有諸多頂會(huì)級(jí)研究；還拿下多個(gè)自動(dòng)駕駛相關(guān)比賽的冠軍，甚至還用7個(gè)攝像頭的純視覺方案，完成了高速、城區(qū)和泊車環(huán)境的自動(dòng)駕駛。

這個(gè)玩家不是特斯拉的AI團(tuán)隊(duì)，這個(gè)玩家是曠視科技。

在最近的AI頂會(huì)CVPR中，大模型加持下的視覺研究，正在驅(qū)動(dòng)自動(dòng)駕駛方向的新研究，而曠視研究院，在一眾自動(dòng)駕駛和智能車玩家參與的競賽中，獲得了考察自動(dòng)駕駛環(huán)境感知能力的冠軍。

AI視覺領(lǐng)域的超級(jí)明星，現(xiàn)如今在業(yè)務(wù)上還沒有與智能車傳出關(guān)聯(lián)。

但有這樣的技術(shù)研究和成果，當(dāng)真會(huì)純出于學(xué)術(shù)研究？

曠視刷榜了什么自動(dòng)駕駛比賽？

曠視研究院參加的這個(gè)比賽，是CVPR 2023專門面向自動(dòng)駕駛感知決策系統(tǒng)設(shè)立的挑戰(zhàn)賽。

其中OpenLane拓?fù)潢P(guān)系挑戰(zhàn)賽冠軍，被曠視收入囊中。

挑戰(zhàn)賽一共四個(gè)賽道，除了曠視參加的OpenLane拓?fù)潢P(guān)系挑戰(zhàn)賽（OpenLane Topology），還有在線高精地圖構(gòu)建挑戰(zhàn)賽（Online HD Map Construction）、三維占據(jù)柵格預(yù)測挑戰(zhàn)賽（3D Occupancy Prediction）和nuPlan規(guī)劃挑戰(zhàn)賽（nuPlan Planning）。

其中，OpenLane拓?fù)潢P(guān)系賽道主要考察自動(dòng)駕駛技術(shù)理解場景的能力。

賽道要求基于OpenLane-V2（OpenLane-Huawei）數(shù)據(jù)集，輸入給定環(huán)視相機(jī)照片，參賽者需要輸出車道中心線和交通元素的感知結(jié)果，以及這些元素之間的拓?fù)潢P(guān)系預(yù)測。

也就是說，這個(gè)比賽不是考察以往自動(dòng)駕駛感知中，對(duì)車道邊緣線或者交通標(biāo)志單一的識(shí)別能力，而是要求自動(dòng)駕駛技術(shù)可以感知車道中心線，還要能理解車道中心線和交通元素的邏輯關(guān)系，比如綠燈亮了，這意味著哪條車道可以通行。

那么如何判定冠軍？OpenLane-V2數(shù)據(jù)集提供了判定標(biāo)準(zhǔn)：OLS分?jǐn)?shù)（OpenLane-V2 Score），通過計(jì)算感知結(jié)果和拓?fù)漕A(yù)測mAP的平均值判定得分。

在34個(gè)參賽隊(duì)伍中，來自曠視研究院的隊(duì)伍得分唯一超過55分，達(dá)到55.19分，具有明顯優(yōu)勢。

那么，曠視用了什么樣的方法？

曠視的自動(dòng)駕駛純視覺方案

首先感知階段，對(duì)于交通元素檢測和車道中心線檢測兩個(gè)感知任務(wù)，曠視分別采用了兩個(gè)不同的模型。

對(duì)于交通元素檢測，曠視使用主流2D檢測模型YOLO系列中最新一代YOLOv8作為baseline，相較于其他2D檢測方法YOLO速度更快，性能更準(zhǔn)確。

△?圖片來源：GitHub用戶RangeKing

再加上比賽使用的數(shù)據(jù)集OpenLane-V2標(biāo)注了交通標(biāo)識(shí)和車道的對(duì)應(yīng)關(guān)系，曠視在YOLOv8訓(xùn)練過程中增加Strong augmentation、Reweighting classification loss、Resampling difficult samples、Pseudo label learning和Test-time augmentation共5個(gè)trick，通過和前視角圖像交互生成對(duì)應(yīng)交通元素的特征。

對(duì)于車道中心線檢測，曠視使用自研PETRv2模型作為baseline。PETRv2提供了一個(gè)統(tǒng)一的純視覺3D感知框架，可以用于3D目標(biāo)檢測和BEV分割。

而在這次比賽中，曠視利用PETRv2從多視角圖像中提取2D特征，以及利用攝像頭截錐空間中生成3D坐標(biāo)，把2D特征和3D坐標(biāo)輸入3D位置編碼器。

隨后使用3D位置編碼器給Transformer解碼器生成key和value組件，lane queries再通過全局注意力機(jī)制和圖像特征進(jìn)行交互，生成3D車道中心線檢測成果和對(duì)應(yīng)的車道中心線特征。

而在拓?fù)潢P(guān)系預(yù)測階段，曠視基于YOLOv8和PETRv2搭建了一個(gè)多階段的網(wǎng)絡(luò)框架，并利用兩個(gè)感知任務(wù)生成的成果拼接對(duì)應(yīng)特征，再使用兩層MLP預(yù)測對(duì)應(yīng)的拓?fù)潢P(guān)系矩陣。

（圖注：曠視最終在驗(yàn)證集上的預(yù)測結(jié)果，包括邊框、類別和置信度）

最后從OLS得分來看，曠視團(tuán)隊(duì)的這套方法在交通元素感知（DETt）、車道線之間拓?fù)潢P(guān)系預(yù)測（TOPll）和車道線與交通元素拓?fù)潢P(guān)系預(yù)測（TOPlt）方面均領(lǐng)先于其他參賽者。

智能車賽道最隱秘的AI視覺玩家

參加這次比賽的，是曠視研究院的MFV（Megvii-Foundation model-Video）團(tuán)隊(duì)。

比賽成果論文一作是吳東明，2019年在北京理工大學(xué)徐班取得學(xué)士學(xué)位，后來繼續(xù)在北理攻讀計(jì)算機(jī)系的博士學(xué)位，師從沈建冰教授，在2022年成為曠視研究院的研究實(shí)習(xí)生。

論文的其他作者也都來自曠視研究院，其中Chang Jiahao畢業(yè)于中國科技大，Li Zhuoling畢業(yè)于香港大學(xué)。

值得一提的是，這次挑戰(zhàn)賽使用的PETRv2模型，還是曠視研究院創(chuàng)始院長孫劍博士去世前，帶領(lǐng)研究團(tuán)隊(duì)發(fā)布的學(xué)術(shù)成果之一。

并且，這也不是曠視唯一的自動(dòng)駕駛相關(guān)研究成果。

除了PETR系列大模型，曠視還發(fā)布過BEVDepth檢測模型（可對(duì)3D目標(biāo)實(shí)現(xiàn)高精度的深度估計(jì)），LargeKernel3D（首次證明大卷積核對(duì)3D視覺任務(wù)的可行性和必要性），BEVStereo（nuScenes純視覺方案3D目標(biāo)檢測SOTA）等……都是行業(yè)領(lǐng)先級(jí)的技術(shù)成果。

△?BEVStereo模型框架

一直以來，曠視研究院都是曠視AI技術(shù)的研發(fā)“大腦”，主攻深度學(xué)習(xí)和計(jì)算機(jī)視覺方向，也是包括AI生產(chǎn)力平臺(tái)Brain++、開源深度學(xué)習(xí)框架天元MegEngine、移動(dòng)端高效卷積神經(jīng)網(wǎng)絡(luò)ShuffleNet等成果的誕生地，已經(jīng)對(duì)外發(fā)表了超過120篇全球頂會(huì)論文；斬獲頂級(jí)賽事中冠軍數(shù)超過40項(xiàng)，擁有1300余件業(yè)務(wù)相關(guān)專利授權(quán)。

而且在區(qū)別于純研發(fā)或前沿技術(shù)預(yù)研布局的企業(yè)研究院，曠視研究院從一開始就被作為作戰(zhàn)部隊(duì)使用，所以曠視研究院的最新成果、瞄準(zhǔn)的方向，一般都不會(huì)一時(shí)興起，或者純?yōu)檠芯慷芯俊?/p>

于是這也是曠視接二連三在自動(dòng)駕駛、智能車賽道方向上產(chǎn)出頂級(jí)成果后，需要關(guān)注的地方。

相比老朋友商湯科技，曠視至今沒有官宣任何智能車、自動(dòng)駕駛業(yè)務(wù)或合作，而商湯則推出了專門的智能車業(yè)務(wù)品牌絕影，由聯(lián)合創(chuàng)始人王曉剛帶隊(duì)，目標(biāo)要成為商湯的支柱型新增長引擎。

對(duì)于智能車和自動(dòng)駕駛這樣的萬億規(guī)模賽道，曠視會(huì)始終心如止、按兵不動(dòng)？不太可能。

更何況從技術(shù)研究能力到技術(shù)實(shí)現(xiàn)水平，都已經(jīng)通過頂會(huì)得到了展現(xiàn)。

以及，曠視研究院還展示過一段自動(dòng)駕駛預(yù)研Demo，僅使用7個(gè)攝像頭，就能實(shí)現(xiàn)高速公路和城區(qū)的自動(dòng)駕駛，并且還能完成水平、垂直以及側(cè)方位停車。

這是什么水平？

作為參考，純視覺王者特斯拉，自動(dòng)駕駛感知方案最少也需要8個(gè)攝像頭。

論文傳送門：https://opendrivelab.com/e2ead/AD23Challenge/Track_1_MFV.pdf

器件型號(hào)	數(shù)量	器件廠商	器件描述	ECAD模型	參考價(jià)格	更多信息
LSM6DS33TR	1	STMicroelectronics	iNEMO 6DoF inertial measurement unit (IMU), for consumer electronics	ECAD模型下載ECAD模型	$2.48	查看
MMA8451QR1	1	NXP Semiconductors	SPECIALTY ANALOG CIRCUIT, QCC16	ECAD模型下載ECAD模型	$3.53	查看
NE555PWR	1	Texas Instruments	Single Precision Timer 8-TSSOP 0 to 70	ECAD模型下載ECAD模型	$0.31	查看

器件型號(hào)

數(shù)量

器件廠商

器件描述

數(shù)據(jù)手冊(cè)

ECAD模型

風(fēng)險(xiǎn)等級(jí)

參考價(jià)格

更多信息

LSM6DS33TR

STMicroelectronics

iNEMO 6DoF inertial measurement unit (IMU), for consumer electronics