多模態(tài)是一個切入點,可以最大程度發(fā)揮智能座艙的自有優(yōu)勢。
“AI座艙,過去五年爆發(fā)式增長,現(xiàn)在問題很快出現(xiàn)了。這個領(lǐng)域產(chǎn)品系列發(fā)展的這么快,其它體系跟不上,智能座艙進入了’無人區(qū)’,國外沒有國內(nèi)發(fā)展快?!?/p>
清華大學(xué)智能綠色車輛與交通全國重點實驗室教授曹東璞,在剛舉辦的全球智能汽車產(chǎn)業(yè)大會(GIV 2024)表示,疫情前,國內(nèi)座艙產(chǎn)品基本落后國外一到兩代,從去年開始,已經(jīng)基本領(lǐng)先國外一到兩代。
國內(nèi)座艙的爆發(fā)式發(fā)展,AI大模型是主要推動力之一?!邦^部座艙企業(yè)已經(jīng)遇到瓶頸了,如果沒有大模型,座艙業(yè)務(wù)估計要一步步萎縮,很難有質(zhì)的飛躍?!?/p>
今年開始,大模型加持的智能座艙,“多模態(tài)”成了一個熱話題。隨著技術(shù)的持續(xù)迭代和發(fā)展,大模型正在從單一模態(tài)向多模態(tài)演進,多模態(tài)大模型,有希望成為未來人機交互的超級入口。
咨詢公司Gartner 預(yù)測,建立在多模態(tài)大模型上的生成式AI應(yīng)用,將從2023年的1%,激增至2027年的40%,充滿了想象空間。
目前,智能汽車是原生多模態(tài)大模型的絕佳落地場景,GPT-4o和商湯絕影的日日新最新版本,已經(jīng)能感知外部環(huán)境、人的情緒以及其他非語音信號,多模態(tài)實時交互的方式,也釋放了車企商業(yè)落地的更多想象空間。
在商湯看來,多模態(tài)大模型的座艙落地,突破了空間的限制,實現(xiàn)艙內(nèi)用戶與更廣闊的物理和數(shù)字世界的聯(lián)接,助推智能汽車向超級智能體進化,本質(zhì)上,是一個生態(tài)的集成。
火山引擎汽車行業(yè)總經(jīng)理楊立偉也表達了類似觀點,大模型天生就跨終端,能夠生態(tài)打通,將來大模型在座艙最大的價值,就是幫助座艙集成好生態(tài),再打通各個終端,有足夠的想象空間。
01、中國軍團,硬剛GPT-4o
何為“多模態(tài)”?
無論是文本、語音、圖像還是視頻,都是我們表達和傳遞信息、同時也是感知信息的方式。而每一種信息的來源或者形式,都可以稱之為“模態(tài)”(Modality)。
人類通過視覺、聽覺、觸覺等感官來接收和理解外部信息,也可以通過文字、語音、圖像、視頻等模態(tài)來表達、傳遞和交流信息。更廣義來說,兩種不同的語言,比如中文和英文,也是兩種不同的模態(tài)。
圖像、語音、視頻等單一模態(tài)訓(xùn)練,能在特定的專業(yè)領(lǐng)域表現(xiàn)亮眼、取得很多成就,包括圍棋領(lǐng)域的AlphaGo、蛋白質(zhì)結(jié)構(gòu)預(yù)測的AlphaFold,但這些單一模態(tài)模型仍舊存在一些局限性。
首先,單一模態(tài)的數(shù)據(jù)所傳遞的信息往往不夠全面、完整,難以充分反映真實世界的復(fù)雜性和多樣性。例如,一段文本可能沒有描述清楚一個場景的所有細節(jié),而僅僅依靠一張圖像也無法展現(xiàn)出一個物體的功能和作用。
其次,單一模態(tài)的模型往往是孤立和封閉的,不能有效與其他模態(tài)的數(shù)據(jù)和模型進行交互和融合。例如,一個只依靠文本生成的模型可能無法根據(jù)圖像的內(nèi)容來生成合適的描述。
隨著OpenAI的GPT-4V和商湯“日日新5.5”的多模態(tài)大模型發(fā)布,AI公司開始在技術(shù)框架層將語言模型、視覺模型、聲音模型等進行融合。這些模型首先獨立訓(xùn)練,然后將各模型在跨模態(tài)數(shù)據(jù)上繼續(xù)訓(xùn)練,最終實現(xiàn)多模態(tài)的對齊,通過顯式或隱式的管道模式進行連接實現(xiàn)場景。
那么,何為原生多模態(tài)?
具體來看,原生多模態(tài)就是指從訓(xùn)練階段開始,模型就利用大量不同模態(tài)的數(shù)據(jù)進行預(yù)訓(xùn)練,技術(shù)上實現(xiàn)緊密的耦合,不僅可以在輸入和輸出端實現(xiàn)多模態(tài),而且還具備強大的多模態(tài)推理能力以及跨模態(tài)遷移能力。
它和之前的多模態(tài)模型最核心的區(qū)別,在于模型訓(xùn)練過程中,是否同時處理所有模態(tài)的數(shù)據(jù),還是分別針對不同目標進行優(yōu)化,是不同模態(tài)之間的相互串聯(lián)、橋接與轉(zhuǎn)化。
前兩月,商湯絕影率先實現(xiàn)原生多模態(tài)大模型的車端部署,官宣了搭載在200 TOPS+平臺上的8B模型(即80億參數(shù))車端部署方案。相較于有幾秒鐘延遲的云上部署方案,商湯絕影車載端側(cè)8B多模態(tài)模型可實現(xiàn)首包延遲可低至300毫秒以內(nèi),推理速度40Tokens/秒。
商湯將多模態(tài)大模型業(yè)務(wù)分為三層——
最下面是模型層,包括車端側(cè)和云端的模型。車端側(cè)的模型可根據(jù)需求部署2.1B、8B等規(guī)模的模型,用于進行端側(cè)的多模態(tài)大模型推理。在云端,則可以部署更大規(guī)模的模型,如20B甚至100B以上的模型。
中間是引擎層,主要有兩個產(chǎn)品。
第一個是座艙大腦,感知座艙內(nèi)的情況,如識別人類的穿著、性別、行為以及觀察座艙內(nèi)的其它細節(jié)特征,對車內(nèi)環(huán)境進行意圖推理;第二個是全時駕駛輔助,它利用多模態(tài)大模型的能力感知車外場景,作為行駛策略的輔助。
最上面是業(yè)務(wù)層,包括語音助手、ADAS系統(tǒng)、手機運用以及娛樂功能等,和下面的模型層、產(chǎn)品引擎層進行融合。
02、大模型“上車”的新功課
神州數(shù)碼汽車業(yè)務(wù)集團CTO劉黎告訴《汽車公社/C次元》,人類數(shù)字化歷史上出現(xiàn)過兩個超級生態(tài),第一個是微軟和英特爾的PC生態(tài),第二個是蘋果和安卓的手機生態(tài),目前業(yè)界正期待第三個超級生態(tài)的到來——
英偉達主導(dǎo)的CUDA有其影響力,但還沒有像前兩個超級生態(tài)那樣,出現(xiàn)殺手級的應(yīng)用。智能車具有大量的傳感器,遠多于手機,還是移動的隱私空間,極有可能成為下一個超級生態(tài)的突破口。
不過,很多車企的座艙設(shè)計,只是把手機的卡片式交互移植到了車上,屏幕比較大,堆積了音樂、導(dǎo)航等,本質(zhì)上還是卡片式交互。想要從根本上解決交互屬性,多模態(tài)是一個切入點,可以最大程度發(fā)揮智能座艙的自有優(yōu)勢。
科大訊飛智能汽車事業(yè)部智能座艙業(yè)務(wù)總經(jīng)理呂思南看來,多模態(tài)大模型加速“上車”,座艙深入融合越來越多,算法的需求也越來越強,對于算力也有極大的壓力。
在芯片選擇方面,頂端的是高通、聯(lián)發(fā)科以及英特爾等廠商,但隨著國產(chǎn)替代日漸強勢,芯片選型越來越多樣化,怎么才能更優(yōu)、更好地使用算力,是一個挑戰(zhàn)。
呂思南分析說,集中化跨模態(tài)的全鏈路數(shù)據(jù)打通,包括服務(wù)接口的標準化等方面,是需要座艙域進一步努力的,包括芯算融合,硬件的抽象化和標準化。
挑戰(zhàn)主要有兩方面。
一是,車端應(yīng)用大模型,目前常見的承載算力的單元是SOC,SOC供應(yīng)商提供不同的算力單元,非??简濧I能力和汽車融合的深度。如果融合不好,則需要更強的算力,成本會更高。
二是,現(xiàn)有的算力會導(dǎo)致整個系統(tǒng)更卡頓,以及多域融合時,互相的打通、分配產(chǎn)生很多困難。此外,OTA迭代、更新也會面臨很大的問題,這些都是當前亟需解決的。
另一方面,是實際需求的取舍。
最近一兩年,座艙大模型如火如荼,但從最終呈現(xiàn)的產(chǎn)品體驗來看,很多座艙應(yīng)用成了消費者眼中的“雞肋”。在智駕領(lǐng)域,端到端等新趨勢可以提高性能和技術(shù)的天花板,但座艙大模型孵化的諸多新應(yīng)用,卻遭遇了“食之無肉、棄之有味”的尷尬。
火山引擎座艙大模型負責人張航強調(diào),最近幾年,座艙內(nèi)的用戶需求沒有太大變化,它的本質(zhì)是跟車的交互。所以,智能座艙當前的重心,不該急于產(chǎn)品創(chuàng)新,而是回歸原點,改變車內(nèi)場景的交互效率。
百度智艙業(yè)務(wù)部總經(jīng)理李濤也表達了類似的觀點,如果一個功能頻繁被用戶使用,一方面說明該功能非常實用,用戶對它產(chǎn)生了依賴;但另一方面,也體現(xiàn)了整體車輛設(shè)計的智能化程度比較低,無法理解用戶當前所需。
“根據(jù)帕累托定律,整體軟件應(yīng)用也符合八二原則。這意味著,80%甚至更高比例的應(yīng)用不會被使用,這樣一來,不只應(yīng)用端產(chǎn)生浪費,主機廠也需要大量投入,無形中造成了整個社會的浪費。”
作者丨菠蘿蜜
責編丨查攸吟
編輯丨王? ?越