作者 | 德新,編輯 | 王博
大模型上車的淘金熱
過去這年最大的技術(shù)潮,非大模型莫屬。
2023年初,由ChatGPT掀起的浪花,迅速地演變成了席卷全球的AI科技浪潮。汽車行業(yè)在其中也不可避免。各大車企紛紛投入與大模型相關(guān)的布局。
長城官宣成立了AI Lab,到2023年9月AI Lab已經(jīng)有超過400人規(guī)模,這支團(tuán)隊由長城智能化副總裁吳會肖帶隊,并由AI Lab負(fù)責(zé)人楊繼峰領(lǐng)銜。長城的AI Lab又稱智能空間實驗室。很明顯長城的大模型發(fā)力的首站會是智能座艙空間。
吉利在汽車研究院下也成立了類似的機(jī)構(gòu),AI智能研究部。吉利汽車集團(tuán)CEO淦家閱在這年中期透露,吉利已經(jīng)具備全棧自研的大模型技術(shù)。吉利自研大模型最早上車的車型,可能是馬上要上市的銀河E8。
理想則在2023年6月份公布了大模型MindGPT,其原有的座艙人工智能助手理想同學(xué)將基于大模型打造新一代的多模態(tài)人機(jī)交互技術(shù)體系。MindGPT所展示的功能,在理想最近更新的OTA 5.0上剛剛落地兌現(xiàn)。
盡管由于車端算力的限制,千億級參數(shù)規(guī)模的大模型還未被搬上車,但「BEV + Transformer」的框架在這年中幾乎統(tǒng)一了所有廠商的智駕感知系統(tǒng)。無論在智能駕駛還是智能座艙上,更大規(guī)模、更為通用的模型正在替代此前多個專用小模型的格局。
「AI大模型不是普通的技術(shù)和創(chuàng)新,而是技術(shù)范式級的創(chuàng)新?!贡贝蠊馊A管理學(xué)院組織與戰(zhàn)略管理系副教授王鐵民在最近的一次分享中這樣總結(jié)。
什么叫「范式級的創(chuàng)新」?科學(xué)哲學(xué)家托馬斯·庫恩早在1962年給了一個定義,是指「那些公認(rèn)的科學(xué)成就,在一段時間里為實踐共同體提供典型的問題和解答」。
簡單來說,在未來相當(dāng)長一段時間內(nèi),AI大模型將是很多技術(shù)問題的答案。
大模型上車,首先從座艙語音開始
關(guān)于大模型上車給車端帶來什么,在過去一年中有很多討論與實踐。
騰訊智慧出行副總裁鐘學(xué)丹,在近期騰訊與北大光華聯(lián)合舉辦的「AI+出行」產(chǎn)業(yè)沙龍上,這樣總結(jié)AI賦能下的汽車新智能:
第一,它重新定義了汽車的人機(jī)交互方式;
第二,明年或者在未來一段時間內(nèi),無論是高速還是城區(qū)的自動駕駛,將涌現(xiàn)越來越多的端到端的技術(shù);
第三,艙駕一體的趨勢將加快落地;
第四,汽車將變成開放的平臺,將接入更多的服務(wù)和體驗內(nèi)容,來幫助用戶解決實際的問題。
座艙領(lǐng)域,尤其是語音交互,可能是過去這年用戶感知變化最為明顯的領(lǐng)域。
鐘學(xué)丹認(rèn)為,當(dāng)前結(jié)合大模型,語音正在發(fā)生新的變化。交互方式正從規(guī)則模式是轉(zhuǎn)變?yōu)楦匀坏姆绞剑唤换鼍?,從過去單一任務(wù)的交互,轉(zhuǎn)變?yōu)榛诙嗳蝿?wù)的應(yīng)用;座艙也正從單一語音交互向多模態(tài)交互轉(zhuǎn)變。
iPhone開啟了消費電子的觸控交互時代,目前絕大部分消費電子的交互都是以觸控為主,汽車也延續(xù)了這樣的交互方式。
但差別在于無論是手機(jī)、iPad還是電腦,都屬于大部分時間是一個人使用的私人設(shè)備,汽車是比較少見的一對多的設(shè)備。所以,汽車當(dāng)前以觸控為主、語音為輔的交互方式未必是最佳方案。
理想汽車智能空間副總裁勾曉菲認(rèn)為,大模型的出現(xiàn)讓語言的理解能力邁上了一個新的高度。因此,從智能空間的角度,理想希望推動未來車內(nèi)的主要交互形態(tài),從觸控為主、對話為輔,逐步向以對話為主、觸控為輔轉(zhuǎn)變。
因為對話式的交互,用戶是完全開放式的輸入,所以下個階段行業(yè)面臨的很大挑戰(zhàn)是,座艙一端的輸出也要變成開放式的——即所有的UI都會變成生成式的,UI的布局要根據(jù)用戶的語言邏輯自動生成,高度匹配用戶的語義。
與此同時,今天座艙應(yīng)用提供的能力都是基于各個公司的垂直領(lǐng)域相互獨立的。比如用戶要去吃望京的美食,需要跨美團(tuán)和地圖兩個應(yīng)用。未來不同的科技企業(yè)都會有屬于自己的Agent,它代表了各自公司的通用能力和私域能力,這些Agent可能會像人與人一樣組建成社會網(wǎng)絡(luò)。在數(shù)字世界里,Agent組成的社會網(wǎng)絡(luò),通過這種全新的接口形式把各家的能力聯(lián)通起來。
大模型驅(qū)動的下一代自動駕駛
理想汽車有一組內(nèi)部數(shù)據(jù),60%的出行場景下,只有駕駛員一個人在車內(nèi)。所以如果不能通過自動駕駛把駕駛員解放出來,智能座艙是無法發(fā)揮價值的。
與高度個性化的座艙服務(wù)不同,自動駕駛是極度標(biāo)準(zhǔn)化的功能。勾曉菲甚至認(rèn)為,「自動駕駛一旦實現(xiàn),是沒有什么想象空間的,但座艙的人機(jī)交互背后有強(qiáng)大的生態(tài)和非常多的服務(wù),背后有無限的想象空間?!?/p>
自動駕駛目前所處的階段,無論從技術(shù)研發(fā)還是市場占有率上,都在高速增長。
由于城區(qū)自動駕駛功能的快速推進(jìn),「BEV + Transformer + 占用網(wǎng)絡(luò) + 無圖化」是過去這年頭部車企的主力研發(fā)方向?!窧EV 上車」,以具備鳥瞰視角(Bird's Eye View)的大模型實現(xiàn)了多攝像頭的融合感知,從而大幅提高了智駕感知的數(shù)據(jù)驅(qū)動比例。
在上一年的CVPR 2023上,還提出了UniAD的論文工作,將感知、決策、規(guī)控等模塊整合到一個端到端的網(wǎng)絡(luò)。以一個深度神經(jīng)網(wǎng)絡(luò)為基礎(chǔ),以提升最終的駕駛體驗為目標(biāo)進(jìn)行端到端的優(yōu)化,可以極大地提升智駕系統(tǒng)的開發(fā)效率。
特斯拉FSD的下一個大版本,V12也將引入端到端的網(wǎng)絡(luò)。
鐘學(xué)丹認(rèn)為,過去業(yè)界在開發(fā)自動駕駛系統(tǒng)時,做的是感知與規(guī)劃分離,這種分離的方式是不符合用戶的駕駛行為和體驗的。而如何實現(xiàn)端到端的自動駕駛?cè)溌返哪P?,更多關(guān)注到最終達(dá)成更好駕駛體驗的目標(biāo),是更重要的解決路徑。
除了對自動駕駛端到端技術(shù)架構(gòu)的影響,大模型也在幫助提升針對訓(xùn)練需要的海量數(shù)據(jù)標(biāo)注。
在Mind GPT發(fā)布之后,李想就曾經(jīng)表示,理想內(nèi)部一年要做大概1000萬幀的自動駕駛圖像的人工標(biāo)定,外包的價格大概6元到8元錢一張,一年成本接近一億元。當(dāng)使用大模型進(jìn)行自動化標(biāo)定,過去需要用一年完成的工作基本上3個小時就能搞定,效率提升千倍。
從車端到云端,大模型正全面推動自動駕駛的體驗進(jìn)化。
掘金大模型的挑戰(zhàn)
除了智能駕駛、智能座艙這兩大最常見的智能化領(lǐng)域,汽車從生產(chǎn)、制造、營銷、服務(wù)的全鏈條,也可能被大模型改造。
騰訊智慧出行副總裁鐘學(xué)丹提出了一些案例,比如在設(shè)計研發(fā)領(lǐng)域,騰訊云AI代碼助手的能力已經(jīng)可以幫助開發(fā)團(tuán)隊完成編碼的編制、測試以及質(zhì)量提升。
通過AIGC生成的數(shù)字化營銷內(nèi)容,可以幫助銷售團(tuán)隊更好地理解用戶。比如在賣車的過程中,每個用戶對車的需求和想法都不一樣,如何為TA創(chuàng)造獨特的內(nèi)容,如何讓內(nèi)容的表述更好地切中潛在車主的需求,將對銷售轉(zhuǎn)化有很大幫助。
長城汽車AI Lab的負(fù)責(zé)人楊繼峰也告訴我們,內(nèi)部已經(jīng)開始使用AI長做在做造型設(shè)計,并且其使用AI的作品與人工設(shè)計的作品拿來做圖靈測試,目前已經(jīng)很難辨認(rèn)出來是否是由AI設(shè)計的。
鐘學(xué)丹也提到,大模型要在全產(chǎn)業(yè)鏈條上落地,目前有三大挑戰(zhàn),模型挑戰(zhàn)、數(shù)據(jù)挑戰(zhàn)以及算力挑戰(zhàn)。
算力挑戰(zhàn)最容易理解,當(dāng)前高算力的GPU對全行業(yè)而言都是稀缺資源。
HiEV獲悉一家互聯(lián)網(wǎng)巨頭在年初向英偉達(dá)下了10億美元的GPU訂單,但隨著對高算力計算平臺的出口限制,GPU越發(fā)稀缺,尤其在去年9/10月之后,不少企業(yè)的供應(yīng)鏈團(tuán)隊都在加班加點解決算力的缺口問題。
而數(shù)據(jù)挑戰(zhàn),源于對數(shù)據(jù)合規(guī)與數(shù)據(jù)安全的要求,尤其在自動駕駛領(lǐng)域,車輛感知的數(shù)據(jù)處理不當(dāng)直接影響地理信息安全,而用戶車內(nèi)的數(shù)據(jù)則涉及隱私安全。
目前雖然通用大模型正上演「百模大戰(zhàn)」,但對于垂直行業(yè)應(yīng)用而言,其準(zhǔn)確率仍達(dá)不到應(yīng)用要求,大模型如何針對行業(yè)應(yīng)用開發(fā)調(diào)教,以及對應(yīng)行業(yè)訓(xùn)練數(shù)據(jù)的質(zhì)量提升,仍任重道遠(yuǎn)。
互聯(lián)網(wǎng)巨頭們是這波「百模大戰(zhàn)」最積極的參與方和推動者,無論從模型訓(xùn)練、算力建設(shè)還是數(shù)據(jù)挖掘上,他們都有豐厚的儲備。
通用大模型可以幫助行業(yè)開發(fā)者快速建立行業(yè)大模型的基礎(chǔ)。以騰訊為例,騰訊的混元大模型有超千億級的參數(shù)規(guī)模,預(yù)訓(xùn)練語料超過2萬億Token。目前在騰訊云上,已經(jīng)有超過300個應(yīng)用接入混元大模型,用在廣告、營銷、游戲、社交等場景。
騰訊也對外提供大模型的一站式商店——MaaS平臺(模型即服務(wù)),幫助企業(yè)快速打造專有的模型應(yīng)用。在底層設(shè)施上,提供大規(guī)模訓(xùn)練集群和高性能計算網(wǎng)絡(luò),帶來業(yè)界最高3.2Tbps帶寬,算力性能提升3倍,為大模型訓(xùn)練提供智算能力支撐。在面向大模型的特殊數(shù)據(jù)場景上,向量數(shù)據(jù)庫可以幫助系統(tǒng)在數(shù)據(jù)訪問效率帶來10倍提升。
不少人將2023年稱為大模型元年,大模型的技術(shù)盛宴才剛剛開始,而汽車作為當(dāng)前最大的消費電子單品,可能會成為從中技術(shù)獲益最大的一支。