为你收集久久五月天婷婷,免费涩涩在线视频网,国产拍揄自揄精品视频网站

多模態(tài)是一個(gè)切入點(diǎn)，可以最大程度發(fā)揮智能座艙的自有優(yōu)勢(shì)。

“AI座艙，過(guò)去五年爆發(fā)式增長(zhǎng)，現(xiàn)在問(wèn)題很快出現(xiàn)了。這個(gè)領(lǐng)域產(chǎn)品系列發(fā)展的這么快，其它體系跟不上，智能座艙進(jìn)入了’無(wú)人區(qū)’，國(guó)外沒(méi)有國(guó)內(nèi)發(fā)展快?！?/p>

清華大學(xué)智能綠色車輛與交通全國(guó)重點(diǎn)實(shí)驗(yàn)室教授曹東璞，在剛舉辦的全球智能汽車產(chǎn)業(yè)大會(huì)（GIV 2024）表示，疫情前，國(guó)內(nèi)座艙產(chǎn)品基本落后國(guó)外一到兩代，從去年開始，已經(jīng)基本領(lǐng)先國(guó)外一到兩代。

國(guó)內(nèi)座艙的爆發(fā)式發(fā)展，AI大模型是主要推動(dòng)力之一?！邦^部座艙企業(yè)已經(jīng)遇到瓶頸了，如果沒(méi)有大模型，座艙業(yè)務(wù)估計(jì)要一步步萎縮，很難有質(zhì)的飛躍?！?/p>

今年開始，大模型加持的智能座艙，“多模態(tài)”成了一個(gè)熱話題。隨著技術(shù)的持續(xù)迭代和發(fā)展，大模型正在從單一模態(tài)向多模態(tài)演進(jìn)，多模態(tài)大模型，有希望成為未來(lái)人機(jī)交互的超級(jí)入口。

咨詢公司Gartner 預(yù)測(cè)，建立在多模態(tài)大模型上的生成式AI應(yīng)用，將從2023年的1%，激增至2027年的40%，充滿了想象空間。

目前，智能汽車是原生多模態(tài)大模型的絕佳落地場(chǎng)景，GPT-4o和商湯絕影的日日新最新版本，已經(jīng)能感知外部環(huán)境、人的情緒以及其他非語(yǔ)音信號(hào)，多模態(tài)實(shí)時(shí)交互的方式，也釋放了車企商業(yè)落地的更多想象空間。

在商湯看來(lái)，多模態(tài)大模型的座艙落地，突破了空間的限制，實(shí)現(xiàn)艙內(nèi)用戶與更廣闊的物理和數(shù)字世界的聯(lián)接，助推智能汽車向超級(jí)智能體進(jìn)化，本質(zhì)上，是一個(gè)生態(tài)的集成。

火山引擎汽車行業(yè)總經(jīng)理?xiàng)盍ヒ脖磉_(dá)了類似觀點(diǎn)，大模型天生就跨終端，能夠生態(tài)打通，將來(lái)大模型在座艙最大的價(jià)值，就是幫助座艙集成好生態(tài)，再打通各個(gè)終端，有足夠的想象空間。

01、中國(guó)軍團(tuán)，硬剛GPT-4o

何為“多模態(tài)”？

無(wú)論是文本、語(yǔ)音、圖像還是視頻，都是我們表達(dá)和傳遞信息、同時(shí)也是感知信息的方式。而每一種信息的來(lái)源或者形式，都可以稱之為“模態(tài)”（Modality）。

人類通過(guò)視覺(jué)、聽覺(jué)、觸覺(jué)等感官來(lái)接收和理解外部信息，也可以通過(guò)文字、語(yǔ)音、圖像、視頻等模態(tài)來(lái)表達(dá)、傳遞和交流信息。更廣義來(lái)說(shuō)，兩種不同的語(yǔ)言，比如中文和英文，也是兩種不同的模態(tài)。

圖像、語(yǔ)音、視頻等單一模態(tài)訓(xùn)練，能在特定的專業(yè)領(lǐng)域表現(xiàn)亮眼、取得很多成就，包括圍棋領(lǐng)域的AlphaGo、蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的AlphaFold，但這些單一模態(tài)模型仍舊存在一些局限性。

首先，單一模態(tài)的數(shù)據(jù)所傳遞的信息往往不夠全面、完整，難以充分反映真實(shí)世界的復(fù)雜性和多樣性。例如，一段文本可能沒(méi)有描述清楚一個(gè)場(chǎng)景的所有細(xì)節(jié)，而僅僅依靠一張圖像也無(wú)法展現(xiàn)出一個(gè)物體的功能和作用。

其次，單一模態(tài)的模型往往是孤立和封閉的，不能有效與其他模態(tài)的數(shù)據(jù)和模型進(jìn)行交互和融合。例如，一個(gè)只依靠文本生成的模型可能無(wú)法根據(jù)圖像的內(nèi)容來(lái)生成合適的描述。

隨著OpenAI的GPT-4V和商湯“日日新5.5”的多模態(tài)大模型發(fā)布，AI公司開始在技術(shù)框架層將語(yǔ)言模型、視覺(jué)模型、聲音模型等進(jìn)行融合。這些模型首先獨(dú)立訓(xùn)練，然后將各模型在跨模態(tài)數(shù)據(jù)上繼續(xù)訓(xùn)練，最終實(shí)現(xiàn)多模態(tài)的對(duì)齊，通過(guò)顯式或隱式的管道模式進(jìn)行連接實(shí)現(xiàn)場(chǎng)景。

那么，何為原生多模態(tài)？

具體來(lái)看，原生多模態(tài)就是指從訓(xùn)練階段開始，模型就利用大量不同模態(tài)的數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練，技術(shù)上實(shí)現(xiàn)緊密的耦合，不僅可以在輸入和輸出端實(shí)現(xiàn)多模態(tài)，而且還具備強(qiáng)大的多模態(tài)推理能力以及跨模態(tài)遷移能力。

它和之前的多模態(tài)模型最核心的區(qū)別，在于模型訓(xùn)練過(guò)程中，是否同時(shí)處理所有模態(tài)的數(shù)據(jù)，還是分別針對(duì)不同目標(biāo)進(jìn)行優(yōu)化，是不同模態(tài)之間的相互串聯(lián)、橋接與轉(zhuǎn)化。

前兩月，商湯絕影率先實(shí)現(xiàn)原生多模態(tài)大模型的車端部署，官宣了搭載在200 TOPS+平臺(tái)上的8B模型(即80億參數(shù))車端部署方案。相較于有幾秒鐘延遲的云上部署方案，商湯絕影車載端側(cè)8B多模態(tài)模型可實(shí)現(xiàn)首包延遲可低至300毫秒以內(nèi)，推理速度40Tokens/秒。

商湯將多模態(tài)大模型業(yè)務(wù)分為三層——

最下面是模型層，包括車端側(cè)和云端的模型。車端側(cè)的模型可根據(jù)需求部署2.1B、8B等規(guī)模的模型，用于進(jìn)行端側(cè)的多模態(tài)大模型推理。在云端，則可以部署更大規(guī)模的模型，如20B甚至100B以上的模型。

中間是引擎層，主要有兩個(gè)產(chǎn)品。

第一個(gè)是座艙大腦，感知座艙內(nèi)的情況，如識(shí)別人類的穿著、性別、行為以及觀察座艙內(nèi)的其它細(xì)節(jié)特征，對(duì)車內(nèi)環(huán)境進(jìn)行意圖推理；第二個(gè)是全時(shí)駕駛輔助，它利用多模態(tài)大模型的能力感知車外場(chǎng)景，作為行駛策略的輔助。

最上面是業(yè)務(wù)層，包括語(yǔ)音助手、ADAS系統(tǒng)、手機(jī)運(yùn)用以及娛樂(lè)功能等，和下面的模型層、產(chǎn)品引擎層進(jìn)行融合。

02、大模型“上車”的新功課

神州數(shù)碼汽車業(yè)務(wù)集團(tuán)CTO劉黎告訴《汽車公社/C次元》，人類數(shù)字化歷史上出現(xiàn)過(guò)兩個(gè)超級(jí)生態(tài)，第一個(gè)是微軟和英特爾的PC生態(tài)，第二個(gè)是蘋果和安卓的手機(jī)生態(tài)，目前業(yè)界正期待第三個(gè)超級(jí)生態(tài)的到來(lái)——

英偉達(dá)主導(dǎo)的CUDA有其影響力，但還沒(méi)有像前兩個(gè)超級(jí)生態(tài)那樣，出現(xiàn)殺手級(jí)的應(yīng)用。智能車具有大量的傳感器，遠(yuǎn)多于手機(jī)，還是移動(dòng)的隱私空間，極有可能成為下一個(gè)超級(jí)生態(tài)的突破口。

不過(guò)，很多車企的座艙設(shè)計(jì)，只是把手機(jī)的卡片式交互移植到了車上，屏幕比較大，堆積了音樂(lè)、導(dǎo)航等，本質(zhì)上還是卡片式交互。想要從根本上解決交互屬性，多模態(tài)是一個(gè)切入點(diǎn)，可以最大程度發(fā)揮智能座艙的自有優(yōu)勢(shì)。

科大訊飛智能汽車事業(yè)部智能座艙業(yè)務(wù)總經(jīng)理呂思南看來(lái)，多模態(tài)大模型加速“上車”，座艙深入融合越來(lái)越多，算法的需求也越來(lái)越強(qiáng)，對(duì)于算力也有極大的壓力。

在芯片選擇方面，頂端的是高通、聯(lián)發(fā)科以及英特爾等廠商，但隨著國(guó)產(chǎn)替代日漸強(qiáng)勢(shì)，芯片選型越來(lái)越多樣化，怎么才能更優(yōu)、更好地使用算力，是一個(gè)挑戰(zhàn)。

呂思南分析說(shuō)，集中化跨模態(tài)的全鏈路數(shù)據(jù)打通，包括服務(wù)接口的標(biāo)準(zhǔn)化等方面，是需要座艙域進(jìn)一步努力的，包括芯算融合，硬件的抽象化和標(biāo)準(zhǔn)化。

挑戰(zhàn)主要有兩方面。

一是，車端應(yīng)用大模型，目前常見的承載算力的單元是SOC，SOC供應(yīng)商提供不同的算力單元，非常考驗(yàn)AI能力和汽車融合的深度。如果融合不好，則需要更強(qiáng)的算力，成本會(huì)更高。

二是，現(xiàn)有的算力會(huì)導(dǎo)致整個(gè)系統(tǒng)更卡頓，以及多域融合時(shí)，互相的打通、分配產(chǎn)生很多困難。此外，OTA迭代、更新也會(huì)面臨很大的問(wèn)題，這些都是當(dāng)前亟需解決的。

另一方面，是實(shí)際需求的取舍。

最近一兩年，座艙大模型如火如荼，但從最終呈現(xiàn)的產(chǎn)品體驗(yàn)來(lái)看，很多座艙應(yīng)用成了消費(fèi)者眼中的“雞肋”。在智駕領(lǐng)域，端到端等新趨勢(shì)可以提高性能和技術(shù)的天花板，但座艙大模型孵化的諸多新應(yīng)用，卻遭遇了“食之無(wú)肉、棄之有味”的尷尬。

火山引擎座艙大模型負(fù)責(zé)人張航強(qiáng)調(diào)，最近幾年，座艙內(nèi)的用戶需求沒(méi)有太大變化，它的本質(zhì)是跟車的交互。所以，智能座艙當(dāng)前的重心，不該急于產(chǎn)品創(chuàng)新，而是回歸原點(diǎn)，改變車內(nèi)場(chǎng)景的交互效率。

百度智艙業(yè)務(wù)部總經(jīng)理李濤也表達(dá)了類似的觀點(diǎn)，如果一個(gè)功能頻繁被用戶使用，一方面說(shuō)明該功能非常實(shí)用，用戶對(duì)它產(chǎn)生了依賴；但另一方面，也體現(xiàn)了整體車輛設(shè)計(jì)的智能化程度比較低，無(wú)法理解用戶當(dāng)前所需。

“根據(jù)帕累托定律，整體軟件應(yīng)用也符合八二原則。這意味著，80%甚至更高比例的應(yīng)用不會(huì)被使用，這樣一來(lái)，不只應(yīng)用端產(chǎn)生浪費(fèi)，主機(jī)廠也需要大量投入，無(wú)形中造成了整個(gè)社會(huì)的浪費(fèi)。”

作者丨菠蘿蜜

責(zé)編丨查攸吟

編輯丨王? ?越

大模型賦能智能座艙，中國(guó)軍團(tuán)迎接新挑戰(zhàn)

01、中國(guó)軍團(tuán)，硬剛GPT-4o

02、大模型“上車”的新功課

相關(guān)推薦

大模型賦能智能座艙，中國(guó)軍團(tuán)迎接新挑戰(zhàn)

01、中國(guó)軍團(tuán)，硬剛GPT-4o

02、大模型“上車”的新功課

相關(guān)推薦

大模型賦能智能座艙，中國(guó)軍團(tuán)迎接新挑戰(zhàn)

01、中國(guó)軍團(tuán)，硬剛GPT-4o