99re国产精品,一区二区日本精品理论片

賈浩楠發(fā)自副駕寺，智能車參考 | 公眾號(hào) AI4Auto

“端到端和傳統(tǒng)技術(shù)范式的區(qū)別，打個(gè)比方，就是人腦通用性之于動(dòng)物的區(qū)別”。

王曉剛博士這樣解釋自動(dòng)駕駛賽道如今這個(gè)“言必稱”的火爆概念。

他是商湯科技聯(lián)合創(chuàng)始人、首席科學(xué)家，也是商湯智能汽車業(yè)務(wù)絕影的負(fù)責(zé)人。

去年6月全球計(jì)算機(jī)視覺(jué)頂會(huì)CVPR 2023，他帶領(lǐng)的商湯技術(shù)團(tuán)隊(duì)的成果一舉斬獲最佳論文——簡(jiǎn)稱UniAD。

如果要標(biāo)記中國(guó)自動(dòng)駕駛里程碑的話，商湯提出UniAD，可能是一個(gè)新賽程的重要起點(diǎn)：

中國(guó)，以及業(yè)內(nèi)首個(gè)感知決策一體化的自動(dòng)駕駛通用大模型。

體現(xiàn)著徹底以全局任務(wù)為目標(biāo)的“一段式”結(jié)構(gòu)，并非對(duì)以往技術(shù)模式的妥協(xié)和改良。

以及UniAD還很有可能是中國(guó)第一個(gè)真正實(shí)現(xiàn)量產(chǎn)上車的端到端自動(dòng)駕駛體系：商湯科技的樓下，測(cè)試車來(lái)來(lái)往往川流不息。

王曉剛透露，已經(jīng)有很多車廠表現(xiàn)出了濃厚的興趣和合作意愿。

“人與動(dòng)物”，區(qū)別在哪？

從去年CVPR 2023最佳論文到現(xiàn)在整整一年時(shí)間，王曉剛分享商湯絕影做了這么幾件事。

首先是UniAD的產(chǎn)品化、工程化不斷推進(jìn)，已經(jīng)從幾千行代碼，完成了向符合汽車工業(yè)標(biāo)準(zhǔn)規(guī)范的量產(chǎn)產(chǎn)品的演變。

對(duì)于一般的自動(dòng)駕駛公司來(lái)說(shuō)，這一步可能就是目標(biāo)和終點(diǎn)，也是最難、最緊迫的挑戰(zhàn)。能全力交付端到端的產(chǎn)品，就能活到下一輪出牌，至于功能、體驗(yàn)，都可以后期OTA。

但商湯絕影不止步于交付一個(gè)單一的自動(dòng)駕駛模型，更進(jìn)一步，提出了兩個(gè)新的技術(shù)和應(yīng)用：

自動(dòng)駕駛大模型DriveAGI，和車載AI Agent，幾個(gè)月前北京車展期間就曾提及，剛剛結(jié)束的WAIC人工智能大會(huì)上，又被王曉剛博士著重強(qiáng)調(diào)。

同出一源，都是商湯原生多模態(tài)大模型，同時(shí)又都以UniAD端到端大模型為基礎(chǔ)，和自動(dòng)駕駛、智能座艙的功能、體驗(yàn)深度關(guān)聯(lián)。

比如DriveAGI，在無(wú)高精地圖，甚至是針對(duì)某種類型目標(biāo)0樣本學(xué)習(xí)的前提下，也能僅依靠視覺(jué)感知實(shí)際道路情況，準(zhǔn)確地完成包括大角度轉(zhuǎn)向、避讓占道車輛及施工區(qū)域、繞行跑步行人等一系列高難度操作，做到“像人一樣開(kāi)車”：

在路上遇到救護(hù)車，它還可以自動(dòng)避讓；遇到潮汐車道或公交車道時(shí)，它能根據(jù)限行規(guī)則自動(dòng)規(guī)避：

除此之外，它也可以切換不同的駕駛風(fēng)格，當(dāng)需要趕時(shí)間時(shí)，你可以告訴DriveAGI開(kāi)得更快?些；如果是想要放松?下，你還可以讓它開(kāi)得平穩(wěn)?些。

到這里你會(huì)發(fā)現(xiàn)，因?yàn)槎嗄B(tài)大腦的存在，智駕和智艙，兩種完全隔絕的技術(shù)、體驗(yàn)，第一次產(chǎn)生聯(lián)動(dòng)和協(xié)作。智能汽車的體驗(yàn)和交互方式，和以往完全不同了。

現(xiàn)在正值歐洲杯，我們“一邊開(kāi)車一邊去找一個(gè)看比賽的餐館”。你直接告訴車載智能助手：訂一個(gè)晚上能夠看歐洲杯比賽的餐館。

商湯絕影基于多模態(tài)大模型的車載AI Agent，會(huì)把要求拆解成三個(gè)步驟。首先，到小紅書(shū)看大家的點(diǎn)評(píng)，根據(jù)你的喜好和地理位置給出推薦，接著在美團(tuán)進(jìn)行這個(gè)預(yù)定，最后打開(kāi)導(dǎo)航，告訴DriveAGI要去的目的地。

王曉剛特別提到，包括對(duì)任務(wù)的分拆，以及后續(xù)對(duì)不同APP的調(diào)用、信息內(nèi)容的總結(jié)和操作等等步驟，都是多模態(tài)模型憑借理解認(rèn)知能力“一氣呵成”，不存在對(duì)某一APP或某一類任務(wù)的單獨(dú)調(diào)整適配。

對(duì)于智艙來(lái)說(shuō)，多模態(tài)大模型就相當(dāng)于一個(gè)超級(jí)管家“賈維斯”，所見(jiàn)即所得。

對(duì)于智駕，多模態(tài)大模型相當(dāng)于一個(gè)“點(diǎn)讀機(jī)”，圖像、視頻數(shù)據(jù)哪里不會(huì)點(diǎn)哪里，不理解的目標(biāo)場(chǎng)景，都能給出準(zhǔn)確的解釋。

聽(tīng)王曉剛博士講到這里，可以明顯感知到商湯絕影對(duì)于端到端的描述和布道，已經(jīng)和業(yè)內(nèi)主流思路有了底層的區(qū)別：從應(yīng)對(duì)自動(dòng)駕駛挑戰(zhàn)，上升到了AGI在車端應(yīng)用。

是不是太早了？

王曉剛不這么認(rèn)為。相反，他認(rèn)為現(xiàn)在談AGI上車，時(shí)機(jī)剛好，甚至還有點(diǎn)緊迫，因?yàn)锳GI應(yīng)該是端到端的必要條件和前提。

所謂端到端，就是駕駛?cè)鞒痰腁I化，傳感器信息輸入，直接輸出決策數(shù)據(jù)信號(hào)。直接的好處，就是可以讓AI模型直接學(xué)習(xí)成熟的駕駛行為，理論上具備和人一樣的駕駛能力。

端到端對(duì)傳統(tǒng)自動(dòng)駕駛技術(shù)范式的降維打擊，是用數(shù)據(jù)驅(qū)動(dòng)替代規(guī)則驅(qū)動(dòng)，解決系統(tǒng)能力上限被鎖死，以及后期無(wú)休止高投入、維護(hù)難的問(wèn)題。

這樣的誘人前景讓現(xiàn)在所有玩家都跟進(jìn)押注。但無(wú)論是出于成本考慮還是技術(shù)實(shí)力所限，現(xiàn)實(shí)的情況是大部分產(chǎn)品實(shí)現(xiàn)端到端，都是靠“兩段式”方法，即感知模型后面，串一個(gè)決策和規(guī)控模型。

但商湯絕影堅(jiān)持搞“純粹”的一段式端到端模型：輸入一段視頻，輸出一段預(yù)測(cè)的軌跡。

王曉剛給出的理由是兩段式首先解決不了信息丟失的問(wèn)題，但更致命的是后串決策規(guī)控模型，“實(shí)際上規(guī)模很小”。

小模型永遠(yuǎn)無(wú)法激發(fā)出應(yīng)對(duì)復(fù)雜場(chǎng)景的通用能力，永遠(yuǎn)無(wú)法產(chǎn)生自動(dòng)駕駛的ChatGPT。

所以端到端天然就應(yīng)該是原生大模型，也只有這樣，才能解決自動(dòng)駕駛從感知向認(rèn)知轉(zhuǎn)變的問(wèn)題。

所以商湯絕影的DriveAGI誕生，把商湯原生多模態(tài)大腦能力應(yīng)用在車端，能夠同時(shí)輸入、處理多種數(shù)據(jù)類型的模型，可以是文本、語(yǔ)音、圖像、視頻等等。

實(shí)際上相當(dāng)于給端到端自動(dòng)駕駛系統(tǒng)，安裝了一個(gè)和人類基本認(rèn)知能力相同的大腦。

底層的思路是這樣：既然大語(yǔ)言模型的學(xué)習(xí)、認(rèn)知能力已經(jīng)和人類差別不大了，那為什么不能用語(yǔ)言模型基礎(chǔ)的范式框架去處理其他數(shù)據(jù)類型的任務(wù)呢？

實(shí)際上就是用大模型語(yǔ)義理解能力去看、去分辨圖像、視頻或者任何類型的數(shù)據(jù)。

現(xiàn)在都說(shuō)只有端到端才能真無(wú)圖，沒(méi)有無(wú)圖就沒(méi)有端到端…這樣的觀點(diǎn)背后暗含著系統(tǒng)能夠“認(rèn)知”世界的前提，但這是狹義端到端模型本身完成不了的任務(wù)。

實(shí)際上幾乎所有和智能車參考交流過(guò)的業(yè)內(nèi)人士，都說(shuō)現(xiàn)在根本不存在絕對(duì)的無(wú)圖，各家方案都或多或少要用到相關(guān)信息。

或者說(shuō)“端到端”這個(gè)大黑盒，決策過(guò)程、思維能力等等開(kāi)發(fā)者根本就無(wú)從知曉，“菩提本無(wú)樹(shù)”。

現(xiàn)階段，商湯絕影根據(jù)歷史研發(fā)積累和技術(shù)發(fā)展趨勢(shì)給出的最佳解決方案，就是利用多模態(tài)大模型展現(xiàn)出的通用AI能力，解決自動(dòng)駕駛的認(rèn)知問(wèn)題。

王曉剛說(shuō)，商湯其實(shí)早在2021、2022年就已嘗試過(guò)構(gòu)建大感知模型，當(dāng)時(shí)達(dá)到了320億參數(shù)，是世界上最大的之一。然而，盡管模型龐大且數(shù)據(jù)喂養(yǎng)充足，但其任務(wù)仍是識(shí)別簡(jiǎn)單元素，比如車輛、人物和標(biāo)注框，高難度數(shù)據(jù)占比很少。換句話說(shuō)你讓模型看什么、學(xué)什么，它就專注于此。

語(yǔ)言模型ChatGPT的創(chuàng)造性震驚世界，由此衍生出推動(dòng)各行各業(yè)生產(chǎn)力革命的多種產(chǎn)品雛形，其訓(xùn)練方式并非簡(jiǎn)單的識(shí)別任務(wù)。以往語(yǔ)言模型中的翻譯或識(shí)別意圖等任務(wù)型訓(xùn)練，根本無(wú)法產(chǎn)生像ChatGPT這樣的模型。

所謂人和動(dòng)物的區(qū)隔，分水嶺明顯。

“如果要比特定的任務(wù)，跑步人跑不過(guò)貓科，嗅覺(jué)比不上犬科。但這些動(dòng)物，只在專有的任務(wù)里很強(qiáng)，永遠(yuǎn)不會(huì)進(jìn)化?！?/p>

“但人是有大腦的，人的特點(diǎn)就是通用性強(qiáng)，能不斷的培養(yǎng)出新的技能，用新的工具發(fā)明創(chuàng)造，搞出很多遠(yuǎn)遠(yuǎn)超過(guò)動(dòng)物能力范圍之外的東西。”

商湯絕影為什么要在端到端競(jìng)爭(zhēng)還未明了的時(shí)間節(jié)點(diǎn)大談AGI？

王曉剛認(rèn)為，目的就是要把智能汽車的大腦培育出來(lái)，給自動(dòng)駕駛一個(gè)“點(diǎn)讀機(jī)”，一張沒(méi)有高精地圖的“高精地圖”，給智能座艙帶來(lái)革命性的交互方式變革…

解決了制約自動(dòng)駕駛、智能座艙功能體驗(yàn)的技術(shù)問(wèn)題，多模態(tài)大模型上車帶來(lái)的AGI潛力，會(huì)展現(xiàn)出更多的應(yīng)用模式，新的東西就會(huì)應(yīng)運(yùn)而生。

“智能汽車”就不會(huì)只停留在現(xiàn)有的維度上了。

“車企低估了AI的難度”

商湯智能汽車業(yè)務(wù)絕影，本質(zhì)是商湯追求布局AGI的過(guò)程中，被適時(shí)“點(diǎn)亮”的一個(gè)技能。

商湯進(jìn)軍智能車領(lǐng)域始于2016年，當(dāng)時(shí)本田來(lái)中國(guó)尋找智能駕駛方向的合作伙伴，最后選定了那時(shí)以AI視覺(jué)知名的商湯。

2017年末，商湯與本田正式對(duì)外官宣了合作，并且商湯也正式明確將把AI之力帶給主機(jī)廠。

當(dāng)時(shí)商湯提出的產(chǎn)品已經(jīng)體現(xiàn)出了和其他廠商的不同。

有兩個(gè)關(guān)鍵點(diǎn)，首先是SenseAuto Empower絕影賦能引擎，包括算法工具箱、數(shù)據(jù)管理、回灌和仿真評(píng)測(cè)系統(tǒng)等工具鏈，供車企靈活定制方案。

但最關(guān)鍵的，是這里面內(nèi)嵌了商湯最強(qiáng)的視覺(jué)感知能力，以及大模型體系支持的AGI能力。

第二個(gè)關(guān)鍵，就是從2018年開(kāi)始，商湯開(kāi)始布局算力基礎(chǔ)設(shè)施SenseCore商湯大裝置，截至2024年第一季度的總算力規(guī)模已達(dá)12000 petaFLOPS。

所以等到商湯的智能汽車業(yè)務(wù)2021年以“絕影”之名首次對(duì)外公布時(shí)，其實(shí)已經(jīng)是一個(gè)有30+車企合作，智駕、智艙方案定點(diǎn)上車2000萬(wàn)輛的重要玩家了。

不過(guò)不同于其他任何玩家，商湯絕影不是以單一自動(dòng)駕駛技術(shù)或智能座艙產(chǎn)品交付為目標(biāo)，而是把汽車作為AGI能力的載體。

以AI技術(shù)立身，尤其擅長(zhǎng)計(jì)算機(jī)視覺(jué)的商湯，先后在互聯(lián)網(wǎng)、城市等領(lǐng)域?qū)崿F(xiàn)場(chǎng)景驗(yàn)證，在落地的一線戰(zhàn)場(chǎng)上，商湯很早意識(shí)到AGI是解決千行百業(yè)各種挑戰(zhàn)難題的“最優(yōu)解”。

這個(gè)過(guò)程中，逐漸建立了自己的“日日新大模型體系”，涵蓋大語(yǔ)言模型、文生圖/視頻模型、多模態(tài)模型等等，能夠解決眾多開(kāi)放式任務(wù)，率先摸到了通用人工智能的門檻。

而把積累的AGI和大模型能力遷移到具體場(chǎng)景中，王曉剛認(rèn)為目前汽車是最合適的載體。

因?yàn)锳GI的基本思路變了，以前是根據(jù)任務(wù)去開(kāi)發(fā)訓(xùn)練專用模型，而大模型時(shí)代，關(guān)鍵是訓(xùn)練出一個(gè)很有潛力的能力很強(qiáng)的模型，然后基于這個(gè)模型去點(diǎn)亮它各種新功能，不斷去挖掘。

就比如OpenAI最新的ChatGPT-4o，展現(xiàn)的就是端到端的多模態(tài)融合能力。

但是ChatGPT-4o展示時(shí)是用手機(jī)，智能手機(jī)以大屏幕為主的設(shè)計(jì)理念，本質(zhì)是照顧以文本輸入為主，和視覺(jué)聽(tīng)覺(jué)被動(dòng)接收這樣的交互方式。

和手機(jī)對(duì)話或比劃動(dòng)作、表情，其實(shí)對(duì)大部分用戶來(lái)說(shuō)都很不自在，否則蘋(píng)果的Siri也不至于這么多年做不起來(lái)。

但智能汽車天然就是一個(gè)主動(dòng)式的、以語(yǔ)音圖像為主的交互平臺(tái)。

所以在商湯絕影的理解中，未來(lái)可能AGI落地最廣的會(huì)是人形機(jī)器人，但這個(gè)10年中，無(wú)論是終端搭載規(guī)模，還是天然的交互模式，智能汽車就是AGI進(jìn)行落地的最好的場(chǎng)景和載體。

但是王曉剛又強(qiáng)調(diào)，打造通用AI大腦的2.0時(shí)代，難度和門檻完全不同。

一個(gè)是基礎(chǔ)設(shè)施的投入，至少需要幾千塊卡去進(jìn)行穩(wěn)定的定向訓(xùn)練，而且訓(xùn)練中怎么進(jìn)行數(shù)據(jù)配置，有很多Know How，基本是“資源和金子堆出來(lái)的”。

比如多模態(tài)模型，每增加一個(gè)模態(tài)，它的難度就會(huì)乘一個(gè)系數(shù)。

語(yǔ)言模型加進(jìn)圖像的模態(tài)，會(huì)發(fā)現(xiàn)語(yǔ)言的能力會(huì)大大退化，因?yàn)榧尤氲膱D像需要跟語(yǔ)言配對(duì)，而這種配對(duì)的數(shù)據(jù)十分稀少，而且以往人工標(biāo)注描述圖像的文字干癟不準(zhǔn)確，所以放進(jìn)來(lái)以后，模型語(yǔ)言能力就會(huì)降低很多，必須得想各種辦法再補(bǔ)回來(lái)…

AGI越往后難度越高，尤其是自動(dòng)駕駛領(lǐng)域，沒(méi)什么開(kāi)源，只能靠團(tuán)隊(duì)本身去克服各種障礙。

所以端到端的自動(dòng)駕駛壁壘不斷變高，將來(lái)能夠支撐的團(tuán)隊(duì)會(huì)越來(lái)越少。

至于今天業(yè)內(nèi)很多車企嘗試自研，王曉剛認(rèn)為也不奇怪：拿一些開(kāi)源的模型試一試，也可以做個(gè)七七八八，但低估了AI的難度。

如果把規(guī)控改成一個(gè)模型，就叫端到端了，那還真不難，的確自己就能做。但如果想做出體驗(yàn)、功能持續(xù)迭代能力都很優(yōu)秀的產(chǎn)品，難度會(huì)高很多，因?yàn)榉Τ掷m(xù)高投入的條件。

所以截至目前，王曉剛認(rèn)為車企和AI公司的合作模式，還不夠理想，需要更多的磨合和探索。

“車廠說(shuō)今天出了個(gè)事故，你給我看一看，趕緊把這個(gè)bug解了”…這是我們現(xiàn)在跟車廠的合作模式。

但這樣一來(lái)，我們沒(méi)有辦法看底層數(shù)據(jù)、拿到最有價(jià)值的那一部分，自然很難再去激發(fā)大模型新能力，去產(chǎn)生新的應(yīng)用，產(chǎn)生降維打擊。

AGI時(shí)代的合作，應(yīng)該超越過(guò)去主機(jī)廠采購(gòu)，供應(yīng)商供貨，然后提供售后服務(wù)的簡(jiǎn)單模式。

王曉剛說(shuō)絕影愿意白盒交付，幫助車企伙伴理解和掌握大模型技術(shù)，只有基于此，才能更加積極配合團(tuán)隊(duì)共同開(kāi)發(fā)，加速產(chǎn)品迭代，打造真正以用戶為中心的AI大模型產(chǎn)品。

另一方面，作為戰(zhàn)略合作伙伴，絕影和主機(jī)廠之間也要實(shí)現(xiàn)信息和數(shù)據(jù)的共享，主機(jī)廠分享不涉及隱私的數(shù)據(jù)給絕影，更好的訓(xùn)練出車載原生的大模型，這是共創(chuàng)共贏的。

這一點(diǎn)可能需要更快達(dá)成共識(shí)，因?yàn)橛泻軓?qiáng)的AI技術(shù)能力、有10萬(wàn)塊GPU、又擁有終端數(shù)據(jù)的特斯拉FSD，可能就要在一年、一年半之內(nèi)落地中國(guó)。

王曉剛博士談到這點(diǎn)，透露出罕見(jiàn)的擔(dān)憂：

中國(guó)車企和科技公司的合作閉環(huán)里，不能只會(huì)解bug。

器件型號(hào)	數(shù)量	器件廠商	器件描述	ECAD模型	參考價(jià)格	更多信息
AD8361ARMZ-REEL7	1	Analog Devices Inc	LF to 2.5 GHz TruPwr™ Detector	ECAD模型下載ECAD模型	$9.9	查看
CD4051BMT	1	Texas Instruments	20-V, 8:1, 1-channel analog multiplexer with logic-level conversion 16-SOIC -55 to 125	ECAD模型下載ECAD模型	$2.24	查看
INA132UA	1	Burr-Brown Corp	Analog Circuit, PDSO8,		$6.95	查看

器件型號(hào)

數(shù)量

器件廠商

器件描述

數(shù)據(jù)手冊(cè)

ECAD模型

風(fēng)險(xiǎn)等級(jí)

參考價(jià)格

更多信息

AD8361ARMZ-REEL7

Analog Devices Inc

LF to 2.5 GHz TruPwr™ Detector