任我爽橹在线视频精品一,久久精品国模无码一二区,国产欧美AA一区二区三区视频

用“造數(shù)據(jù)”的方式來(lái)創(chuàng)建一個(gè)“美麗新世界”，這個(gè)“唯一解”你同意嗎？

在前一篇文章《開(kāi)炒VLA，“端到端”過(guò)氣了？》里，我們了解到一個(gè)新的概念“世界模型”。按照目前行業(yè)的理解，“端到端”的盡頭，就是世界模型。

因?yàn)椋?a class="article-link" target="_blank" href="/tag/%E8%87%AA%E5%8A%A8%E9%A9%BE%E9%A9%B6/">自動(dòng)駕駛光有端到端還不夠。端到端的“黑盒子”特性，導(dǎo)致上限提高的同時(shí)拉低下限，存在“蹺蹺板效應(yīng)”。無(wú)窮無(wú)盡的Corner Case，寫(xiě)不完的代碼。

那么，如何解決這些問(wèn)題？世界模型閃亮登場(chǎng)了。

01、開(kāi)始嘍

粗略統(tǒng)計(jì)一下，目前已經(jīng)大約有超過(guò)10個(gè)車(chē)企和自動(dòng)駕駛公司提出了世界模型。這里面，包括特斯拉、英偉達(dá)、蔚小理華、地絕元魔，以及一些內(nèi)部在推進(jìn)此事的企業(yè)。

那么，我們要問(wèn)，什么是世界模型？它是如何生成的？又是如何運(yùn)行的？

追溯一下，“World Models”（世界模型）最早出現(xiàn)在機(jī)器學(xué)習(xí)領(lǐng)域。

2018年，機(jī)器學(xué)習(xí)頂會(huì)NeurIPS收錄的《Recurrent World Models Facilitate Policy Evolution》論文，以認(rèn)知科學(xué)中人腦Mental Model來(lái)類(lèi)比世界模型，認(rèn)為mental model參與了人類(lèi)的認(rèn)知、推理、決策過(guò)程。其中，最核心的能力——反事實(shí)推理（Counterfactual reasoning），是一種人類(lèi)天然具備的能力。

另外，PLAM掌上電腦創(chuàng)始人杰夫·霍金斯的《千腦智能》中，也介紹了人工智能領(lǐng)域中非常重要的“世界模型”概念。

時(shí)間到了2024年2月16日，著名的Open AI公司發(fā)布了震驚全世界的“文生視頻”大模型 Sora，它可以根據(jù)文本自動(dòng)生成一段60秒的視頻。這成為世界模型的一個(gè)具象體現(xiàn)。

而在人工智能領(lǐng)域，包括李飛飛的World Labs，谷歌DeepMind等企業(yè)都發(fā)布了世界模型。Yann LeCun的Mate FAIR團(tuán)隊(duì)還發(fā)布了導(dǎo)航世界模型，根據(jù)前一秒的導(dǎo)航信息實(shí)時(shí)生成下一秒的軌跡。

如今，業(yè)內(nèi)的共識(shí)是，一旦這個(gè)技術(shù)成熟，自動(dòng)駕駛將迎來(lái)真正的爆發(fā)。

雖然，國(guó)內(nèi)汽車(chē)行業(yè)現(xiàn)在還在“卷”從“兩段式”的端到端到“一段式”的端到端，但是，按照博世智能駕控中國(guó)區(qū)總裁吳永橋的說(shuō)法，從兩段式端到端逐步過(guò)渡到一段式端到端，最終實(shí)現(xiàn)世界模型的應(yīng)用，這一路線圖正逐漸成為業(yè)內(nèi)共識(shí)。這是一條車(chē)端到云端的路。

而且，梳理一下自動(dòng)駕駛技術(shù)的發(fā)展路線，就會(huì)發(fā)現(xiàn)一個(gè)非常有意思的事情。

所謂“功夫在詩(shī)外”，這幾年所有對(duì)自動(dòng)駕駛發(fā)展產(chǎn)生推動(dòng)的技術(shù)都不源于自動(dòng)駕駛，而是人工智能。這里面，從BEV+Transformer，占用網(wǎng)絡(luò)OCC，到端到端，世界模型。就像那句話，“自動(dòng)駕駛本質(zhì)上是人工智能的一個(gè)具身智能體現(xiàn)。”

世界模型仿佛打開(kāi)了一個(gè)全新的窗口和世界，這里面包括探路者特斯拉。

2023年，特斯拉自動(dòng)駕駛負(fù)責(zé)人在CVPR上介紹了“通用世界模型”。該模型可以通過(guò)過(guò)往的視頻片段和行動(dòng)提示，生成“可能的未來(lái)”全新視頻。

Wayve也在2023 年發(fā)布了GAIA-1模型，它可以依靠視頻、文本和動(dòng)作的輸入生成逼真的視頻，能夠生成分鐘級(jí)的視頻以及多種合理的未來(lái)場(chǎng)景，幫助自動(dòng)駕駛模型的訓(xùn)練和仿真。

2024年GTC大會(huì)上，英偉達(dá)也展示了世界模型領(lǐng)域的新進(jìn)展：The Next Wave of AI: Physical AI。

而國(guó)內(nèi)車(chē)企里面，蔚來(lái)比較領(lǐng)先。2023年NIO Day上，蔚來(lái)公布其正在自研世界模型。一年后7月27日的科技日上，蔚來(lái)智駕負(fù)責(zé)人任少卿發(fā)布中國(guó)首個(gè)智能駕駛世界模型NWM，釋放出更多技術(shù)細(xì)節(jié)。

NWM模型是一個(gè)具有全量理解數(shù)據(jù)、長(zhǎng)時(shí)序推演和決策能力的智能駕駛世界模型。它能夠在100毫秒內(nèi)推演出216種可能發(fā)生的場(chǎng)景，并尋找到最優(yōu)決策。

11月底，商湯絕影舉辦了自己的第一個(gè)AI DAY，亮出名為“開(kāi)悟”的世界模型，可生成仿真數(shù)據(jù)，與量產(chǎn)實(shí)車(chē)采集的真實(shí)數(shù)據(jù)結(jié)合，共同重建物理世界。商湯絕影CTO肖楓還直接說(shuō)：“‘地大華魔’頭部格局，已經(jīng)是過(guò)去式了?！?/p>

世界模型有這么厲害？

02、世界模型怎么做？

小馬智行CTO樓天城給了世界模型極高的評(píng)價(jià)，“世界模型是最重要的事情，沒(méi)有之一?！?/p>

那么，自動(dòng)駕駛領(lǐng)域，世界模型如何發(fā)揮作用？按照地平線的解釋?zhuān)澜缒Ｐ偷淖饔糜袃蓚€(gè)：

一是通過(guò)生成式大模型生成帶有預(yù)測(cè)性質(zhì)的視頻數(shù)據(jù)，實(shí)現(xiàn)Corner Case多樣化訓(xùn)練；

二是采用強(qiáng)化學(xué)習(xí)的方法認(rèn)識(shí)復(fù)雜駕駛環(huán)境，從視頻輸出駕駛決策。

而構(gòu)建世界模型的辦法也有兩個(gè)：一個(gè)是憑空想象，“無(wú)中生有”；另一個(gè)，是根據(jù)現(xiàn)有信息完善信息，比如輸入文本、圖片、視頻，生成更多更豐富的視頻。

作為自動(dòng)駕駛的“大殺招”，世界模型解決了兩大難題，一個(gè)是3D重建的高成本、低效率，另一個(gè)就是仿真無(wú)法“還原”真實(shí)數(shù)據(jù)的問(wèn)題。可以說(shuō)，世界模型包含了仿真的部分內(nèi)容，但是又完全高于仿真。

這也產(chǎn)生了一個(gè)疑問(wèn)，世界模型是應(yīng)該凌駕于真實(shí)數(shù)據(jù)之上，還是僅僅作為真實(shí)數(shù)據(jù)的補(bǔ)充？

小馬智行CTO樓天城認(rèn)為，依靠現(xiàn)有的真實(shí)數(shù)據(jù)只能讓智駕系統(tǒng)無(wú)限接近人，只有世界模型數(shù)據(jù)才能構(gòu)建出更復(fù)雜的世界，最終讓訓(xùn)練出來(lái)的系統(tǒng)超越人。換句話說(shuō)，就是“自動(dòng)駕駛的安全必須高于人類(lèi)才有意義”。

所以，必須要有高于人類(lèi)駕駛行為的世界模型數(shù)據(jù)訓(xùn)練出來(lái)的系統(tǒng)，才能優(yōu)于人類(lèi)。按照這個(gè)表述，世界模型應(yīng)該凌駕于真實(shí)數(shù)據(jù)之上。

不過(guò)，這樣一來(lái)，世界模型好壞的評(píng)估就很難有個(gè)量化的準(zhǔn)確辦法。只能大致看世界模型的幾項(xiàng)能力：準(zhǔn)確性，多樣性，可控性和泛化能力。

目前的現(xiàn)狀，是沒(méi)有標(biāo)準(zhǔn)解，八仙過(guò)海、各顯神通。

比如，地平線提出了世界模型的兩個(gè)長(zhǎng)遠(yuǎn)價(jià)值：一是更準(zhǔn)確的世界理解，幫助減少智駕系統(tǒng)的代碼量、延遲、網(wǎng)絡(luò)負(fù)載、錯(cuò)誤率等。二是泛化能力，世界模型可以形成對(duì)復(fù)雜駕駛環(huán)境的通用理解，而非對(duì)輸入的重復(fù)依賴(lài)。

按照地平線的實(shí)踐，其提出的“交互式博弈”，核心在于通過(guò)生成數(shù)據(jù)驅(qū)動(dòng)實(shí)現(xiàn)模擬學(xué)習(xí)和強(qiáng)化學(xué)習(xí)。為了避免機(jī)器對(duì)數(shù)據(jù)的重復(fù)模仿，它必須要學(xué)會(huì)主動(dòng)理解數(shù)據(jù)。這時(shí)候世界模型就承擔(dān)了“系統(tǒng)教練”的角色，指導(dǎo)系統(tǒng)到底該怎么開(kāi)。

而商湯絕影的“開(kāi)悟”世界模型，基于商湯20 EFLOPS的云端算力，可以做到“（視頻生成）時(shí)間最長(zhǎng)為150秒、分辨率可達(dá)1080P、視角可以實(shí)現(xiàn)11V”。也即是，通過(guò)“實(shí)車(chē)道路采集+世界模型生成”雙輪驅(qū)動(dòng)，實(shí)現(xiàn)Corner Case數(shù)據(jù)生成。

商湯絕影認(rèn)為這個(gè)難度很大，行業(yè)普遍都是生成1V或6V視角的視頻，開(kāi)悟直接干到11V，而且同時(shí)生成的視角畫(huà)面越多，要保持時(shí)空一致性就更難，還要克服魚(yú)眼視角的畸變。

至于特斯拉和元戎啟行的思路，則是用一套系統(tǒng)覆蓋兩種商業(yè)模型，輔助駕駛和Robotaxi。然后用數(shù)據(jù)訓(xùn)練的方式不斷提升系統(tǒng)的能力上限，這種邏輯下世界模型更像是現(xiàn)實(shí)世界數(shù)據(jù)的補(bǔ)充。

按照?qǐng)A周智行的說(shuō)法，目前的一個(gè)行業(yè)共識(shí)，是自動(dòng)駕駛實(shí)現(xiàn)的一個(gè)大前提不僅僅是像人，而是要超越人。因之，真實(shí)世界的數(shù)據(jù)只能是無(wú)限接近人，而要超越人，世界模型是目前通往自動(dòng)駕駛的唯一解。

那么，用“造數(shù)據(jù)”的方式來(lái)創(chuàng)建一個(gè)“美麗新世界”，這個(gè)“唯一解”你同意嗎？

作者丨王小西

責(zé)編丨崔力文

編輯丨王? ?越

自動(dòng)駕駛，世界模型是唯一解？

01、開(kāi)始嘍

02、世界模型怎么做？

相關(guān)推薦

自動(dòng)駕駛，世界模型是唯一解？

01、開(kāi)始嘍

02、世界模型怎么做？

相關(guān)推薦

自動(dòng)駕駛，世界模型是唯一解？

01、開(kāi)始嘍

02、世界模型怎么做？