作者 | 張萌宇
2023年1月5日,在第七屆HAOMO AI DAY上,毫末智行智算中心“雪湖·綠洲”(MANA OASIS)重磅發(fā)布。MANA OASIS由毫末智行與火山引擎聯(lián)合打造,每秒浮點(diǎn)運(yùn)算達(dá)到67億億次,存儲帶寬每秒2T,通信帶寬每秒800G。
基于火山引擎大數(shù)據(jù)積累和底層技術(shù),MANA OASIS實(shí)現(xiàn)的計(jì)算、存儲、通訊能力,讓數(shù)據(jù)更快速轉(zhuǎn)化成知識,以實(shí)現(xiàn)降本增效的目的。
在MANA OASIS的加持下,毫末MANA五大模型——視覺自監(jiān)督大模型、3D重建大模型、多模態(tài)互監(jiān)督大模型、動態(tài)環(huán)境大模型、人駕自監(jiān)督認(rèn)知大模型全新升級亮相。
這五大模型分別實(shí)現(xiàn)了什么功能呢?
接下來,我們將一一介紹。
視頻自監(jiān)督大模型
讓毫末在中國較早實(shí)現(xiàn)4D Clip的自動標(biāo)注。
為了更低成本、更高效獲取更多高價值數(shù)據(jù),需要解決從離散幀自動化擴(kuò)充到Clips形態(tài)的問題。毫末首先利用海量video clip,通過視頻自監(jiān)督方式,預(yù)訓(xùn)練出一個大模型,用少量人工標(biāo)注好的Clip數(shù)據(jù)進(jìn)行fine tune(微調(diào)),訓(xùn)練檢測跟蹤模型,使得模型具備自動標(biāo)注的能力;然后,將已經(jīng)標(biāo)注好的千萬級單幀數(shù)據(jù)所對應(yīng)的原始視頻提取出來組織成Clip,其中10%是標(biāo)注幀,90%是未標(biāo)注幀,再將這些Clip輸入到模型,完成對90%未標(biāo)注幀的自動標(biāo)注,進(jìn)而實(shí)現(xiàn)單幀標(biāo)注向Clip標(biāo)注的轉(zhuǎn)化,同時降低Clip標(biāo)注成本。
3D重建大模型
助力毫末做數(shù)據(jù)生成,用更低成本解決數(shù)據(jù)分布問題。
面對“完全從真實(shí)數(shù)據(jù)中積累corner case困難且昂貴”的行業(yè)難題,毫末將三維重建NeRF技術(shù)應(yīng)用在自動駕駛場景重建和數(shù)據(jù)生成中,它通過改變視角、光照、紋理材質(zhì)的方法,生成高真實(shí)感數(shù)據(jù),實(shí)現(xiàn)低成本獲取corner case的目標(biāo)。
多模態(tài)互監(jiān)督大模型
可以完成通用障礙物的識別。
針對城市多種異形障礙物的穩(wěn)定檢測問題,毫末引入了多模態(tài)互監(jiān)督大模型,此模型直接使用視頻數(shù)據(jù)來推理場景的通用結(jié)構(gòu)表達(dá)。通用結(jié)構(gòu)的檢測,可以作為語義障礙物檢測的補(bǔ)充,提升自動駕駛系統(tǒng)在城市復(fù)雜工況下的通過率。
動態(tài)環(huán)境大模型
采用重感知技術(shù)路線,降低自動駕駛系統(tǒng)對高精地圖的依賴。
毫末在BEV(鳥瞰圖)的feature map(特征圖)基礎(chǔ)上,以標(biāo)清地圖作為引導(dǎo)信息,使用自回歸編解碼網(wǎng)絡(luò),將BEV特征解碼為結(jié)構(gòu)化的拓?fù)潼c(diǎn)序列,實(shí)現(xiàn)車道拓?fù)漕A(yù)測。如此一來,毫末的感知系統(tǒng)能像人類一樣在標(biāo)準(zhǔn)地圖的導(dǎo)航提示下就可以實(shí)現(xiàn)對道路拓?fù)浣Y(jié)構(gòu)的實(shí)時推斷,對高精地圖的依賴度顯著降低。
人駕自監(jiān)督認(rèn)知大模型
讓毫末的駕駛策略更加擬人化,安全及順暢。
在探索“使用大量人駕數(shù)據(jù),直接訓(xùn)練模型做出擬人化決策”方面,毫末為了讓模型能夠?qū)W習(xí)到高水平司機(jī)的優(yōu)秀開車方法,引入了用戶真實(shí)的接管數(shù)據(jù),同時用RLHF(從人類反饋中強(qiáng)化學(xué)習(xí))思路先訓(xùn)練一個reward model(獎勵模型)來挑選出更好的駕駛決策。通過這種方式,毫末的自動駕駛系統(tǒng)在掉頭、環(huán)島等公認(rèn)的困難場景中的通過率顯著提升。
顧維灝表示,“在五大模型助力下,MANA最新的車端感知架構(gòu),從過去分散的多個下游任務(wù)集成到了一起,形成一個更加端到端的架構(gòu),包括通用障礙物識別、局部路網(wǎng)、行為預(yù)測等任務(wù),毫末車端感知架構(gòu)實(shí)現(xiàn)了跨代升級?!?/p>