對話 |?蓋世汽車CEO、蓋世汽車資訊部總編?周曉鶯
撰文 |?蓋世汽車編輯 熊薇
2022年底ChatGPT火爆出圈,在全球范圍內(nèi)引發(fā)一輪通用人工智能(AGI)技術(shù)創(chuàng)新和產(chǎn)業(yè)化落地?zé)岢?。作為其中一個(gè)重要落地場景,汽車產(chǎn)業(yè)憑借智能化變革新機(jī)遇,與廣泛市場需求,也站上了“大模型+”風(fēng)口。
“對于汽車行業(yè),我覺得AGI的影響主要有兩個(gè)方面:第一,會(huì)大幅提升生產(chǎn)效率,比如基于大模型的端到端自動(dòng)駕駛,將顯著提升自動(dòng)駕駛開發(fā)效率;第二,AGI會(huì)改變人機(jī)交互方式,得益于大模型加持,未來汽車有望變?yōu)橐粋€(gè)超級(jí)智能體。”近日,商湯科技聯(lián)合創(chuàng)始人、首席科學(xué)家、絕影智能汽車事業(yè)群總裁王曉剛接受蓋世汽車CEO周曉鶯采訪時(shí)表示。
尤其是今明兩年,在王曉剛看來將是AGI重塑智能汽車非常關(guān)鍵的時(shí)間窗口。
因此,憑借在人工智能領(lǐng)域的豐富積累,以及在AGI軟硬件基礎(chǔ)設(shè)施上持續(xù)不斷的投入,以商湯絕影作為核心載體,商湯正大力布局汽車業(yè)務(wù),并構(gòu)建了完整的“駕-艙-云”三位一體架構(gòu)體系,多維度助推智能汽車加速駛?cè)階GI時(shí)代。
在智能駕駛領(lǐng)域,商湯絕影早在2022年底就于業(yè)內(nèi)率先發(fā)布了感知決策一體化自動(dòng)駕駛通用模型UniAD。在此基礎(chǔ)上,依托應(yīng)用場景更廣、性能更強(qiáng)的多模態(tài)大模型,商湯絕影又研發(fā)了新一代自動(dòng)駕駛大模型 DriveAGI,開啟自動(dòng)駕駛迭代升級(jí)新范式。
在智能座艙領(lǐng)域,商湯絕影也發(fā)布了一系列基于多模態(tài)場景大腦的大模型產(chǎn)品,計(jì)劃基于多模態(tài)大模型進(jìn)一步打造AI智能體,更好地助力智能座艙。比如前段時(shí)間上市的小米SU7,就應(yīng)用了商湯的大語言模型和多模態(tài)模型。
據(jù)王曉剛介紹,在智駕方面,目前商湯絕影已成功交付了廣汽、合眾、一汽等車企項(xiàng)目,智能座艙業(yè)務(wù)去年更是累計(jì)交付了40多個(gè)車型,量產(chǎn)規(guī)模大概有120多萬輛,預(yù)計(jì)今年無論交付車型款數(shù)還是量產(chǎn)車數(shù)量將再創(chuàng)新高。
不過,盡管AGI在賦能各行各業(yè)轉(zhuǎn)型升級(jí)方面已經(jīng)取得了突破性進(jìn)展,王曉剛認(rèn)為,大模型要真正在千行百業(yè)產(chǎn)業(yè)化落地,既是短跑又是長跑?!耙?yàn)槲覀兲幵谑袌龊图夹g(shù)都高速發(fā)展的階段,另一方面,通用人工智能的上限和天花板很高,現(xiàn)在遠(yuǎn)沒達(dá)到上限,未來還有非常大的發(fā)展空間。”
那么,AGI重構(gòu)汽車產(chǎn)業(yè),“奇點(diǎn)”究竟何時(shí)來臨?需要具備哪些條件?目前商湯絕影已經(jīng)發(fā)展到了哪個(gè)階段?后續(xù)還有何長遠(yuǎn)的規(guī)劃以及目標(biāo)?汽車行業(yè)“百模大戰(zhàn)”還會(huì)持續(xù)多久?
以下為訪談實(shí)錄? 對話
“從智能汽車到機(jī)器人,大模型想象空間巨大”
Q:周曉鶯:商湯怎么看待AGI對汽車產(chǎn)業(yè)帶來的影響?
王曉剛:AGI和大模型給人們的社會(huì)生活,包括各行各業(yè)帶來了非常深刻的變化。在人工智能1.0時(shí)代,我們需要針對每個(gè)任務(wù)訓(xùn)練一個(gè)模型,在過去幾年里,商湯推出了超過4萬個(gè)商業(yè)化模型,這里面投入的研發(fā)資源非常大,研發(fā)周期非常長。但今天有了通用人工智能,幾個(gè)非常強(qiáng)的大模型就可以完成很多任務(wù),而且是一些開放式的任務(wù)。
之前的人工智能比較擅長基于固定規(guī)則下的任務(wù),比如下圍棋AlphaGo做的很好,但如果把棋盤大小改變了,可能就要重新訓(xùn)練。今天有了通用人工智能,即便沒有這些規(guī)則,也能完成很多開放式任務(wù)。
像自動(dòng)駕駛進(jìn)入復(fù)雜城區(qū)場景,很多依靠規(guī)則其實(shí)沒法覆蓋,這些開放式任務(wù)正是通用人工智能所擅長的,包括智能座艙里各種人機(jī)交互,也在不斷提出新的需求,這些都可以通過通用人工智能去應(yīng)對。
另外,以前做人工智能,比較多的是識(shí)別,包括物體識(shí)別、人臉識(shí)別等,今天的通用人工智能可以是生成式AI,能自主生成大量內(nèi)容,包括文字、圖像和視頻,極大改變我們的文化、社會(huì)和生活。
具體到汽車行業(yè),我覺得AGI的影響主要有兩個(gè)方面:第一,會(huì)大幅提升生產(chǎn)效率。比如大家已經(jīng)能夠看到用Copilot做編程助手,汽車行業(yè)有大量軟件開發(fā),需要投入非常多的人力。未來在大模型駕駛領(lǐng)域,通過機(jī)器可以節(jié)省80%的工作量。
目前自動(dòng)駕駛比較明顯的發(fā)展趨勢是基于大模型的端到端自動(dòng)駕駛,以前基于規(guī)則的模式,進(jìn)入復(fù)雜城區(qū)場景后,需要的代碼量可能是原來高速場景的幾十倍,因?yàn)槊刻煲幚砀鞣N不同的Corner Case,需要很多工程師不斷解決各種新問題。但是大模型出現(xiàn)以后,通過數(shù)據(jù)驅(qū)動(dòng)自動(dòng)駕駛發(fā)展成為可能,從感知、規(guī)控到?jīng)Q策,可以通過一個(gè)網(wǎng)絡(luò)模型來實(shí)現(xiàn),靠數(shù)據(jù)覆蓋各種Corner Case,會(huì)在無形中大幅提升開發(fā)效率。
還有座艙里的DMS、OMS,過去根據(jù)疲勞監(jiān)測、分心監(jiān)測、打電話監(jiān)測等功能,每個(gè)特定任務(wù)都要投入專人開展數(shù)月研發(fā),現(xiàn)在有了多模態(tài)大模型,可以不斷增加新任務(wù),而模型本身無需改變,就能即時(shí)響應(yīng),效率提升十分明顯。
第二,AGI會(huì)改變?nèi)藱C(jī)交互方式。以前座艙里只能通過簡短固定語音指令完成特定任務(wù),今天有了大模型加持,可以進(jìn)行各種開放式多輪對話,就像跟機(jī)器人對話一樣。包括現(xiàn)在座艙里面有很多APP,有時(shí)候要使用一個(gè)APP可能要找好久,現(xiàn)在AI智能體能自動(dòng)完成這些事情。而且通過座艙里各種傳感器,系統(tǒng)還可以觀察駕乘人員的狀態(tài),并主動(dòng)發(fā)起對話,變成一個(gè)超級(jí)智能體。所以說,汽車是實(shí)現(xiàn)大模型人機(jī)交互閉環(huán)一個(gè)非常好的場景。
對于智能終端,從最早AI 1.0時(shí)代的手機(jī),到今天的汽車,再到將來的機(jī)器人,AI大模型給智能汽車帶來了非常大的想象空間。我們正從智能汽車1.0時(shí)代,走向一個(gè)真正的超級(jí)AI智能體。
Q:周曉鶯:感覺這個(gè)演變讓人非常興奮,會(huì)打開一個(gè)新天地,咱們預(yù)測過這個(gè)時(shí)間表嗎,或者一些關(guān)鍵的時(shí)間節(jié)點(diǎn)?
王曉剛:我覺得今明兩年是非常關(guān)鍵的時(shí)間窗口。一方面,自2022年底ChatGPT出圈,過去兩年通用人工智能發(fā)展十分迅猛,出現(xiàn)了很多新模型和應(yīng)用,給智能汽車帶來了非常多的機(jī)會(huì)。
另一方面,從智能汽車發(fā)展來看,比如智能駕駛前幾年還存在路線爭議,現(xiàn)在已經(jīng)收斂很多,行業(yè)對于未來的發(fā)展方向也比較明確。智能座艙有了大模型加持,意味著艙內(nèi)一系列軟硬件架構(gòu)都會(huì)發(fā)生變化,今天比較多還是調(diào)用云端大模型,將來一定是端云結(jié)合。這里面誰能抓住先機(jī),改變用戶體驗(yàn),給客戶交付更有價(jià)值的產(chǎn)品,這一兩年將是重要的窗口期。
周曉鶯:所以這兩年大家要加速往前沖。
王曉剛:有人說現(xiàn)在既是短跑又是長跑,因?yàn)槲覀兲幵谑袌龊图夹g(shù)都高速發(fā)展的階段,要能夠抓住它。但另一方面,通用人工智能的上限和天花板很高,現(xiàn)在遠(yuǎn)沒達(dá)到上限,未來還有非常大的發(fā)展空間。
Q:周曉鶯:對于人工智能技術(shù)在各行各業(yè)的落地,商湯做了很多探索,這其中商湯絕影主要專注于智能汽車應(yīng)用,您能否分享下商湯絕影具體的戰(zhàn)略規(guī)劃?
王曉剛:商湯是一個(gè)人工智能平臺(tái)公司,無論發(fā)展還是創(chuàng)新,都需要由行業(yè)來牽引。早期互聯(lián)網(wǎng)、手機(jī)和智慧城市,是牽引公司發(fā)展的主要?jiǎng)恿?,但今天智能汽車成了牽引人工智能發(fā)展創(chuàng)新最重要的動(dòng)力,因?yàn)槠囆袠I(yè)規(guī)模非常大。
另外,智能汽車是一個(gè)非常好的人機(jī)交互場景,而通用人工智能大模型又可以改變未來人機(jī)交互。所以絕影的發(fā)展戰(zhàn)略,是依托商湯的特長積累和戰(zhàn)略,抓住通用人工智能和大模型給智能汽車帶來的機(jī)遇。
這里面需要什么呢?第一,非常強(qiáng)的軟硬件基礎(chǔ)設(shè)施。我們從2018年開始研究大模型,那時(shí)還沒有能支撐大模型研究的基礎(chǔ)設(shè)施,所以我們建立了商湯大裝置,到今天一共有45000塊GPU,總算力突破了12000P,到今年年底將進(jìn)一步達(dá)到16000P。作為對比,特斯拉目前有10萬塊GPU,而反觀國內(nèi)其他車企,在算力儲(chǔ)備方面和特斯拉還有很大的差距。因此在這方面,商湯絕影可以給行業(yè)提供比較好的基礎(chǔ)設(shè)施。
在此基礎(chǔ)上,我們還有一系列原生態(tài)大模型,包括自然語言模型、多模態(tài)模型、文生圖模型、文生視頻模型以及3D大模型,積累了大量Know-How。我們并不是一味追隨Open AI,而是有自己的創(chuàng)新點(diǎn),比如我們2022年底發(fā)布了UniAD,這是業(yè)內(nèi)第一個(gè)端到端自動(dòng)駕駛大模型,到現(xiàn)在可以看到端到端大模型用于自動(dòng)駕駛已經(jīng)成為行業(yè)共識(shí),我們的UniAD也有面向量產(chǎn)的方案,這體現(xiàn)了我們的原創(chuàng)性。
另外,去年5月我們還推出了用于機(jī)器人的具身智能模型。原來機(jī)器人比如AlphaGo所用的模型,只能解決已經(jīng)定義好比較規(guī)則的特定任務(wù),但具身智能模型可以解決很多開放式任務(wù),比如《我的世界》(Minecraft)里面的200多個(gè)任務(wù),都能去解鎖。而OpenAI和DeepMind用傳統(tǒng)的強(qiáng)化學(xué)習(xí)去做,只解鎖了其中的78個(gè)。所以從智能汽車到機(jī)器人,大模型可以帶來非常多的想象空間。
今年,大家對多模態(tài)模型落地有非常高的期待,但其實(shí)我們在2023年3月就開源了多模態(tài)模型,擁有30億參數(shù),是當(dāng)時(shí)業(yè)內(nèi)最強(qiáng)的多模態(tài)模型。可以看到,這些模型布局我們都走在行業(yè)前面。
針對汽車行業(yè),我們對一系列大模型專門進(jìn)行了優(yōu)化,通過與大量智艙、駕駛數(shù)據(jù)相結(jié)合,構(gòu)建專屬于汽車行業(yè)的原生態(tài)大模型,因?yàn)檫@里面很多任務(wù)不是通用模型能解決的,由此衍生出了一系列面向自動(dòng)駕駛和智能座艙的方案。比如端到端自動(dòng)駕駛大模型正在推進(jìn)當(dāng)中,智能座艙領(lǐng)域,我們?nèi)ツ暌舶l(fā)布了一系列基于大模型的產(chǎn)品,今年將進(jìn)一步推出基于多模態(tài)大模型的AI智能體,更好助力智能座艙的體驗(yàn)升維。比如前段時(shí)間上市的小米SU7,就應(yīng)用了我們的語言模型和多模態(tài)模型。另外從手機(jī)到其他各種智能終端,我們跟小愛同學(xué)都有比較好的合作。
所以商湯絕影整體的發(fā)展戰(zhàn)略叫“駕-艙-云”三位一體,所謂“云”就是各種基礎(chǔ)設(shè)施,可以助力整車廠和其他一些合作伙伴,進(jìn)行智能駕駛和智能座艙相關(guān)開發(fā)。
“未來汽車將有很多智能體,各自擅長不同的能力”
Q:周曉鶯:從財(cái)報(bào)數(shù)據(jù)來看,去年商湯絕影智能汽車業(yè)務(wù)整體營收增幅超過了30%,相對于整個(gè)行業(yè)來說是一個(gè)非常好的成績,其中主要增長點(diǎn)來自哪些業(yè)務(wù)?
王曉剛:在智能駕駛方面,我們已經(jīng)交付了廣汽、合眾、一汽等車企,但真正要帶來收入增長,可能還需要一段時(shí)間。比較而言,智能座艙業(yè)務(wù)走的相對快一些,去年我們累計(jì)交付了40多個(gè)車型,量產(chǎn)規(guī)模大概有120多萬輛。今年,無論交付車型款數(shù)還是量產(chǎn)車數(shù)量,都會(huì)翻一倍。這里面我覺得兩個(gè)核心點(diǎn)在于,一個(gè)是智能汽車的滲透率在快速提升,另一個(gè)是汽車對新技術(shù)、新產(chǎn)品的追求給我們帶來了比較好的機(jī)會(huì)。
周曉鶯:恰恰是您講的這兩點(diǎn),汽車智能化發(fā)展和對新技術(shù)的追求,現(xiàn)在都在快速上量。
王曉剛:所以我們也需要不斷加大投入,提升效率。商湯在人工智能領(lǐng)域有比較好的儲(chǔ)備和積累,同時(shí)我們也在不斷強(qiáng)化工程體系、交付能力以及與車企的合作能力,更好地服務(wù)這個(gè)行業(yè)。
Q:周曉鶯:您前面提到一系列大模型,包括在汽車領(lǐng)域的兩條發(fā)展路徑,能不能展開講一下大模型上車與這些產(chǎn)品及應(yīng)用之間的邏輯關(guān)系?商湯絕影大模型有哪些獨(dú)特亮點(diǎn)?
王曉剛:有比較多的相關(guān)性,比如多模態(tài)大模型的基礎(chǔ)是,首先你要有強(qiáng)大的語言模型、視覺模型,才能在這個(gè)基礎(chǔ)上去形成更加強(qiáng)大的多模態(tài)模型。另外我們還有文生視頻模型、文生圖模型,積累了大量的Know-How。
具體到產(chǎn)品方面,我們已經(jīng)有UniAD自動(dòng)駕駛端到端大模型,在此基礎(chǔ)上,依托多模態(tài)大模型,進(jìn)一步拓展研發(fā)了新一代自動(dòng)駕駛大模型 DriveAGI,其中的數(shù)據(jù)輸入除了各種傳感器,還有駕駛員的指令。因?yàn)楝F(xiàn)在的自動(dòng)駕駛,基本上都是確定好目的地后車輛自主駕駛,在這個(gè)過程當(dāng)中,其實(shí)有很多人機(jī)交互應(yīng)用。比如每個(gè)人駕駛習(xí)慣不一樣,或者在不同情況下對車輛駕駛行為需求不一樣,比如有些人趕時(shí)間可能會(huì)頻繁地?fù)Q道超車,有些人希望能在車上安靜地看書,這時(shí)可以跟系統(tǒng)做一些互動(dòng)。
從輸出角度,以前車輛就是一個(gè)“黑盒子”,但現(xiàn)在有了大模型以后,當(dāng)車輛做出各種決策時(shí),其實(shí)可以通過自然語言解釋一下為什么要這么開,這是我們覺得多模態(tài)大模型能夠給自動(dòng)駕駛帶來的一個(gè)延伸。
另外從產(chǎn)品角度,我們知道訓(xùn)練自動(dòng)駕駛算法需要大量端到端數(shù)據(jù),這些數(shù)據(jù)除了實(shí)際采集,還要大量的仿真數(shù)據(jù),因?yàn)橛行r(shí)候想得到特定場景的訓(xùn)練數(shù)據(jù)比較難,并且越到后面數(shù)據(jù)采集效率越低。在這種情況下,我們的文生視頻模型就可以用來生成各種攝像頭角度、各種車況或者交通場景下的視頻,進(jìn)行自動(dòng)駕駛測試和算法訓(xùn)練。
除了自動(dòng)駕駛,我們也在探索怎么跟座艙里的大模型結(jié)合,因?yàn)槲磥碲厔菔桥擇{融合,在一顆芯片上同時(shí)部署智駕大模型和座艙大模型,實(shí)現(xiàn)各種傳感器、車內(nèi)車外數(shù)據(jù)的聯(lián)通。
比如在駕駛過程中,我們看到車外的建筑物,或者靠近某個(gè)景點(diǎn)、交通路口時(shí),會(huì)問各種問題,模型能給出智能化的回答,這要求延時(shí)非常低。但是現(xiàn)在我們艙內(nèi)的一些模型還放在云端,有延遲,存在一些數(shù)據(jù)方面的問題。
將來通過端云結(jié)合,我們希望80%的這種問題能夠通過端上的芯片完成,及時(shí)響應(yīng),同時(shí)成本比較低,從而實(shí)現(xiàn)比較好的用戶體驗(yàn)。未來,我們判斷越來越多的公司會(huì)使用MoE(Mixture of Experts)架構(gòu),也就是混合專家模型,就是很多模型在各種不同情況下,針對不同任務(wù)調(diào)用不同模型,這樣會(huì)極大地降低算力。
Q周曉鶯:感覺以后開車,在體驗(yàn)上會(huì)越來越絲滑,但實(shí)際上后面的系統(tǒng)也會(huì)越來越復(fù)雜。
王曉剛:對,有很多智能體,這些智能體有各自擅長的不同能力,甚至包括自動(dòng)駕駛也不一定是一個(gè)模型,比如在高速場景和復(fù)雜路口,或者擁擠的路段、鄉(xiāng)間小路,每個(gè)模型擅長的事情都不一樣。
Q周曉鶯:最好大模型供應(yīng)商是一家企業(yè),否則會(huì)不會(huì)打架?
王曉剛:所以將來研發(fā)模式也會(huì)發(fā)生變化,之前一個(gè)系統(tǒng)被切成很多模塊,由不同供應(yīng)商提供各個(gè)模塊,現(xiàn)在因?yàn)橛幸粋€(gè)大模型整體協(xié)調(diào),技術(shù)耦合度會(huì)更高。但另一方面,這又要求跟整車廠之間的合作更深入,因?yàn)闀?huì)涉及軟硬件架構(gòu)的改變,而且每家車企還有自己定制化的內(nèi)容、獨(dú)特賣點(diǎn)和特征,這需要更加深度的耦合。
Q周曉鶯:關(guān)于大模型到底怎么上車這件事情,是否方便分享一些跟車企合作的案例?因?yàn)檫@還是一個(gè)蠻新的領(lǐng)域,雖然大家談了很多。
王曉剛:去年大模型剛剛開始應(yīng)用時(shí),跟車企的合作相對簡單一些,就是提供模型給車企測一測,或者把幾個(gè)模型比較一下,誰的能力強(qiáng)選誰。但后來慢慢發(fā)現(xiàn),通用模型其實(shí)解決不了實(shí)際問題,很多執(zhí)行指令以及可靠性滿足不了車企需求,需要定制化開發(fā)。
另外原來的云端模型存在固有缺陷,光有一個(gè)云端模型還不行,而是需要若干個(gè)模型結(jié)合起來,這又會(huì)涉及到車內(nèi)軟件架構(gòu)的改變,包括這些模型還需要跟整車生態(tài)聯(lián)合,因?yàn)檐噧?nèi)有很多APP,智能體要調(diào)用這些APP。在這個(gè)過程當(dāng)中,我們和車企逐漸變成了深度耦合、密切合作的關(guān)系。我覺得這可能也是未來的一個(gè)趨勢。因?yàn)樵诩夹g(shù)發(fā)生變革的時(shí)候,大家都希望能夠參與其中,共同設(shè)計(jì)這些架構(gòu)。
Q周曉鶯:這不像傳統(tǒng)汽車時(shí)代,只是簡單地增加一個(gè)部件或者一個(gè)功能,而更像是兩個(gè)大的生態(tài)在相互融合。
王曉剛:比如原來車企內(nèi)部,會(huì)根據(jù)電子電氣架構(gòu)設(shè)置各個(gè)部門,但大模型出現(xiàn)后,會(huì)對過去的很多功能和模塊進(jìn)行重構(gòu),這將帶來組織架構(gòu)變化,也即是生產(chǎn)力變化帶來生產(chǎn)關(guān)系變化,這也是為什么我覺得接下來像絕影這樣的新供應(yīng)商會(huì)有機(jī)會(huì)。所以在帶來新技術(shù)的同時(shí),我們還要對自身組織結(jié)構(gòu)進(jìn)行重整,以適應(yīng)技術(shù)的發(fā)展變化,包括跟整車廠合作模式的變化,誰先把這些事情理順,誰就能走得更快。
Q周曉鶯:所以絕影的優(yōu)勢,我覺得像您講的不管是對人工智能的理解和應(yīng)用,還是組織架構(gòu)、人才儲(chǔ)備,其實(shí)都有比較長和比較深的積累。
王曉剛:我們在技術(shù)上有一定的積累,同時(shí)也認(rèn)識(shí)到了技術(shù)對我們組織架構(gòu)帶來的新變化。所以我們現(xiàn)在是以一種開放的心態(tài)重新創(chuàng)業(yè),打破原來的組織分工形態(tài),我們跟車廠也保持非常開放的態(tài)度,共同探索新的模式。
“智能駕駛往后發(fā)展,降本將是重要趨勢”
Q周曉鶯:在智駕領(lǐng)域,絕影量產(chǎn)智駕方案已經(jīng)上車哪吒S、廣汽昊鉑等車型,后續(xù)還有何新的量產(chǎn)落地規(guī)劃?
王曉剛:接下來,我們還會(huì)持續(xù)更新系統(tǒng)功能,不斷提升用戶體驗(yàn)。在哪吒S上,我們已經(jīng)率先在16 TOPS算力條件下實(shí)現(xiàn)了高速領(lǐng)航功能,接下來通過OTA升級(jí),我們還會(huì)持續(xù)優(yōu)化用戶體驗(yàn),同時(shí)也希望不斷拓展新的車型、新的功能。
Q周曉鶯:對于城市智駕,我們看過去兩年“大算力芯片+激光雷達(dá)”幾乎成為標(biāo)配,您對此怎么看?
王曉剛:我覺得智能駕駛再往后發(fā)展,降本將是一個(gè)重要趨勢,所以擺脫對激光雷達(dá)的依賴,主要依靠視覺的方案,也會(huì)是未來的一個(gè)發(fā)展趨勢。當(dāng)然到了L3,需要冗余備份的時(shí)候,還是需要激光雷達(dá)。但是對于L2.9的城區(qū)領(lǐng)航,我們其實(shí)也在做純視覺方案,包括端到端的UniAD,就是基于視覺方案在做。
談到算力,首先還是在不斷地增長,但同時(shí)也在追求性價(jià)比,并希望在體驗(yàn)上有一些突破,因?yàn)楫吘褂写竽P图映郑@方面我覺得還有探索空間。比如未來的艙駕融合,在一顆芯片上同時(shí)部署智駕和智艙,能夠降低成本。另外我們也看到,芯片廠商仍在不斷提升算力,這給大模型在端上落地提供了更大空間。
所以我覺得未來智駕大算力演進(jìn)和降本會(huì)交替進(jìn)行,并在體驗(yàn)上不斷上探天花板。同時(shí)對一些比較成熟的功能,會(huì)通過降本提升性價(jià)比,實(shí)現(xiàn)更大量產(chǎn)規(guī)模。
Q周曉鶯:所以絕影非常堅(jiān)定地看好純視覺路線,是因?yàn)閯偛胖v的成本?
王曉剛:也是本身的基因所在,視覺是商湯的專長,早在2016年本田來中國尋找合作伙伴的時(shí)候,就給我們出題用兩顆攝像頭怎么完成自動(dòng)駕駛,隨后2017年我們基于兩顆攝像頭完成了要求。
而除了成本優(yōu)勢,比較之下視覺方案提供的信息也更加豐富,天花板更高。尤其在復(fù)雜場景中,端到端方案通過視覺感知能提取更豐富的信息,獲取有價(jià)值信息的能力會(huì)變得更強(qiáng),這也是我們看好視覺的一個(gè)重要原因。
Q周曉鶯:您覺得端到端方案是城市智駕的最優(yōu)解嗎?
王曉剛:我覺得是這樣的,因?yàn)槌鞘兄邱{覆蓋的復(fù)雜場景非常多,包括各種Corner Case,并且大家對體驗(yàn)的要求也在不斷提升。不過今天雖然都在談端到端,實(shí)現(xiàn)的方式還不太一樣,有些其實(shí)是兩段式的,即感知和規(guī)控分兩部分。
因?yàn)榇饲爸挥懈兄糠质褂玫氖茿I神經(jīng)網(wǎng)絡(luò),規(guī)控部分使用的是規(guī)則。目前很多方案還是兩段式的,只不過把其中的規(guī)控改為了用神經(jīng)網(wǎng)絡(luò)來實(shí)現(xiàn),整體難度相對低一些。但也會(huì)帶來一些新的問題,因?yàn)榻?jīng)過感知過濾以后,有些信息會(huì)丟失,如此一來規(guī)控提取的信息會(huì)相對有限。
而真正的端到端,像特斯拉做的,輸入的是視頻、圖像,輸出的是規(guī)控軌跡,這個(gè)難度高很多,因?yàn)榍懊娴男畔⒃捶浅?fù)雜,但要輸出的是非常精準(zhǔn)的控制信息,這其中對技術(shù)和網(wǎng)絡(luò)的要求都非常高,天花板也更高,因?yàn)橹虚g沒有人為分拆,不會(huì)損失信息。
Q周曉鶯:就是雖然都叫端到端,中間還是有非常多的差異,回到大模型也一樣,這兩年特別火,包括汽車行業(yè)整車廠和技術(shù)公司也都在推自己的大模型,您怎么看待這個(gè)現(xiàn)象?
王曉剛:我覺得這是一個(gè)必然過程,大模型出現(xiàn)以后,大家都想去嘗試。但未來一定會(huì)收斂,因?yàn)檫@對資源的投入要求非常高,并且需要不斷追蹤技術(shù)的發(fā)展。今天大模型的發(fā)展不是已經(jīng)到了天花板,而是還處在一個(gè)快速發(fā)展的階段,對投入要求非常高。
剛才提到算力,我們?nèi)ツ暌呀?jīng)實(shí)現(xiàn)了1000P算力,等效于把3000塊A100芯片連在一起進(jìn)行大模型網(wǎng)絡(luò)訓(xùn)練。今年我們的目標(biāo)是實(shí)現(xiàn)3000P算力,等效于1萬塊A100連成一個(gè)集群用來訓(xùn)練網(wǎng)絡(luò),明年進(jìn)一步達(dá)到10000P算力,整個(gè)基礎(chǔ)設(shè)施是不斷演進(jìn)的。
但我們看今天很多做大模型的企業(yè),可能只有100P或者幾百P的算力,其實(shí)不具備這種原生態(tài)大模型能力,而是拿一些開源模型在上面做修改。這樣一來,如果想做一些根本性的創(chuàng)新很難,而且這是一個(gè)持續(xù)投入的過程。
我們看過去十年人工智能的發(fā)展,2012年神經(jīng)網(wǎng)絡(luò)第一次在視覺里面取得比較大的突破,之后從AlexNet到AlphaGO,再到今天的GPT-4,算力需求已經(jīng)增長了1000萬倍,目前還在不斷增長。在這種情況下,前面說既是短跑又是長跑,如果從長跑角度來看,不太可能每家車廠都構(gòu)建自己的大模型,更多可能是找到這方面的合作伙伴,而且這個(gè)合作伙伴也需要在這條路上持續(xù)投入,持續(xù)創(chuàng)新,我覺得這恰恰是商湯絕影的機(jī)會(huì)。
在AGI領(lǐng)域,商湯本身就有很深的積累,同時(shí)我們也是非常堅(jiān)定地持續(xù)往前走。未來,我相信整車廠能夠意識(shí)到基礎(chǔ)設(shè)施所帶來的價(jià)值,到時(shí)候我們怎么能夠更好地深入合作,什么是他們要做的,什么由我們來做,會(huì)慢慢清晰。
周曉鶯:大家需要一個(gè)時(shí)間學(xué)習(xí)新東西,并且在定位上慢慢把邊界區(qū)隔開,而不是什么都自己做。
王曉剛:尤其大模型發(fā)展很快,可能你上一代還沒有100%達(dá)到別人的水平,別人下一個(gè)版本又出來了。
“整車廠邁向通用人工智能,商湯絕影希望成為核心供應(yīng)商”
Q周曉鶯:剛剛提到算力,原來燃油車時(shí)代是靠馬力驅(qū)動(dòng),現(xiàn)在智能車時(shí)代靠算力驅(qū)動(dòng),咱們有預(yù)測過智能汽車變革對算力的需求上限嗎?
王曉剛:今天還沒有看到上限,我們知道人腦的神經(jīng)元數(shù)量約為860億個(gè),如果把每個(gè)神經(jīng)元的突觸算上,相當(dāng)于百萬億規(guī)模,今天還遠(yuǎn)遠(yuǎn)沒有達(dá)到上限。所以可以看到,目前對算力的需求還在持續(xù)增加。
不過我覺得未來可能是“云端模型+離線模型+終端模型”的融合狀態(tài),汽車領(lǐng)域有望出現(xiàn)一個(gè)超級(jí)強(qiáng)的大模型,類似于今天的GPT-4,然后派生出若干個(gè)能部署在終端的小模型。在此過程中,隨著算力提升,終端小模型的能力將逐漸增強(qiáng)。
Q周曉鶯:商湯大裝置現(xiàn)在算力是12000P,后面的算力規(guī)劃能不能給我們講講?
王曉剛:今年底計(jì)劃達(dá)到16000P,但這里面的規(guī)劃其實(shí)滯后于需求。我們最早規(guī)劃大裝置的時(shí)候,算力是5000P,但實(shí)際需求很快就超過了當(dāng)時(shí)的計(jì)劃。所以說這個(gè)領(lǐng)域還是一個(gè)高速發(fā)展的狀態(tài),但有一點(diǎn)比較肯定,就是商湯作為人工智能平臺(tái)性企業(yè),在這些方面一定要抓住制高點(diǎn)。
Q周曉鶯:過去兩年我們也看到很多車企在組建智算中心,您覺得這個(gè)現(xiàn)象會(huì)持續(xù)嗎?
王曉剛:組建智算中心投入非常大,還可能出現(xiàn)的一種情況是,智算中心剛建好發(fā)現(xiàn)規(guī)模不夠用了。所以對算力的規(guī)劃一定要留有冗余,用于彈性調(diào)度,這樣的規(guī)模化才是最經(jīng)濟(jì)的。如果說每家公司都具備100P或者200P的算力,將來可能不僅不能解決自身問題,還會(huì)產(chǎn)生比較高的維護(hù)成本,從這個(gè)角度并不是一個(gè)經(jīng)濟(jì)的選擇,可能選擇合作更合適。
其實(shí)商湯原本也在各地組建了比較多小的算力中心,后來才統(tǒng)一匯聚到臨港,實(shí)現(xiàn)像剛才說的萬卡集群大算力,大家的任務(wù)可以充分調(diào)配我們的算力,達(dá)到一個(gè)最優(yōu)使用情況。不然的話,想擴(kuò)充算力規(guī)模的時(shí)候擴(kuò)不出去,另外使用效率也不是很高。
周曉鶯:它更像是一種新基建。
王曉剛:而且技術(shù)難度很高,當(dāng)我們把10000塊GPU連在一起的時(shí)候,中間只要一塊GPU出現(xiàn)問題,或者硬件之間的連接出問題,都會(huì)對整個(gè)系統(tǒng)帶來影響?,F(xiàn)在商湯可以進(jìn)行萬卡互聯(lián)的超大集群訓(xùn)練,且能夠長時(shí)間穩(wěn)定運(yùn)行,一旦出現(xiàn)問題,異常檢測速度已達(dá)到分鐘級(jí),能實(shí)現(xiàn)快速診斷并及時(shí)修復(fù)。這些都是我們這么多年訓(xùn)練AI大模型計(jì)算過程中積累的經(jīng)驗(yàn),如果每家公司自己去做的話,是不劃算的。
Q周曉鶯:人工智能某種程度屬于科技非常頂端的技術(shù),不僅研發(fā)投入大,回報(bào)周期也很長。而現(xiàn)在汽車行業(yè)競爭十分激烈,企業(yè)會(huì)面臨很多選擇,比如究竟要市場份額還是利潤,對于商湯絕影來說,怎么看待在汽車產(chǎn)業(yè)商業(yè)閉環(huán)走的更久,能夠更好盈利這件事情?
王曉剛:我們也還在探索當(dāng)中,在汽車行業(yè)絕影非常年輕,還有很多東西需要學(xué)習(xí)。我們也從汽車行業(yè)引進(jìn)了大量相關(guān)人才,一方面推進(jìn)產(chǎn)品落地,加深跟客戶的合作關(guān)系,另一方面對下一代技術(shù)提前布局。因?yàn)榧夹g(shù)迭代非??欤赡苓@一代技術(shù)或產(chǎn)品搶到了市場份額,但又失去了下一代技術(shù)更新迭代的機(jī)會(huì)。所以我們看絕影的商業(yè)價(jià)值,也是放在商湯大背景下面,希望通過比較好的技術(shù)持續(xù)引領(lǐng)市場,而不是停留在某一個(gè)階段。
Q周曉鶯:從您的視野來看,現(xiàn)在中國智能汽車的發(fā)展和應(yīng)用,包括大模型上車,您覺得在全球市場大概處于什么樣的生態(tài)位?
王曉剛:發(fā)展肯定是非??斓模?dāng)然如果說美國的話,特斯拉肯定是行業(yè)標(biāo)桿。除此之外我覺得國內(nèi)過去幾年的積累包括迭代速度,都體現(xiàn)出了比較強(qiáng)的競爭力。所以將來把我們這些智能化技術(shù)推向全球,也是很重要的一個(gè)點(diǎn)。
Q周曉鶯:如果往后看三年,您對商湯絕影的發(fā)展有何期待?
王曉剛:從自身定位來說,面向未來AGI發(fā)展目標(biāo),我們希望能夠助力整車廠和合作伙伴,去實(shí)現(xiàn)我們新的定位和價(jià)值。
本身絕影就是一匹千里馬,需要能夠跑的比較遠(yuǎn),我覺得這是時(shí)代給了我們非常遠(yuǎn)大的目標(biāo),和充滿想象力的空間。同時(shí)我們還要跟整車廠緊密合作,扎扎實(shí)實(shí)做好產(chǎn)品落地。今天市場競爭仍然非常激烈,我們希望能夠做好產(chǎn)品交付,同時(shí)在行業(yè)里面持續(xù)引領(lǐng)創(chuàng)新。
希望三年以后絕影能夠成為AGI時(shí)代整車廠走向通用人工智能非常重要的核心技術(shù)伙伴,非常核心的供應(yīng)商。如果能夠?qū)崿F(xiàn)這點(diǎn)的話,我會(huì)非常高興,我想商湯也非常高興實(shí)現(xiàn)我們的目標(biāo)。
周曉鶯:我們也非常期待商湯絕影在接下來的發(fā)展中,像千里馬一樣跑得越來越快。
彩蛋
Q周曉鶯:您小時(shí)候就是學(xué)霸,中科大的少年班,后來從學(xué)術(shù)到產(chǎn)業(yè)會(huì)有不適應(yīng)嗎?
王曉剛:各種調(diào)整吧,我剛來公司的時(shí)候,湯老師說你只要管好技術(shù)就行,不需要負(fù)責(zé)管理。但后來其實(shí)發(fā)現(xiàn),如果不懂技術(shù)也管不了人,而不懂管理,也形成不了落地的結(jié)果,因?yàn)檫€是結(jié)果為導(dǎo)向。
我剛到商湯的時(shí)候并不管業(yè)務(wù),后來需要負(fù)責(zé)一些具體業(yè)務(wù),商務(wù)收入指標(biāo),各方面要求還比較高。但我覺得這也是商湯的選擇,公司發(fā)展需要你變成一個(gè)什么樣的人,能夠隨著發(fā)展快速做出調(diào)整。
另一方面,這個(gè)轉(zhuǎn)變對我來說還是非常感恩,我非常珍惜這個(gè)轉(zhuǎn)變。因?yàn)槿斯ぶ悄馨l(fā)展非常快,待在學(xué)校里很多事情做不了,要資源實(shí)現(xiàn)AI落地。十幾年前我們做AI研究都是停留論文上,2004年我們發(fā)表了五篇CVPR,那時(shí)候中國很少有人能做到。但今天不一樣,論文很多,甚至都用ChatGPT來寫論文。
周曉鶯:生產(chǎn)工具不一樣。
王曉剛:但要形成影響力的話,在產(chǎn)業(yè)里面把AI落地是非常重要的點(diǎn)。從培養(yǎng)人才來說,以前我就帶十幾個(gè)博士生,每年有幾個(gè)人畢業(yè)。但到了商湯,我們這幾年培養(yǎng)了幾千人。
對人才的培養(yǎng),底層其實(shí)還是要實(shí)現(xiàn)技術(shù)突破,讓技術(shù)產(chǎn)生社會(huì)價(jià)值,同時(shí)也能培養(yǎng)人,底層邏輯是一樣的。但這里面實(shí)現(xiàn)的方式不一樣,從原來的學(xué)術(shù)背景到今天的產(chǎn)業(yè)界,風(fēng)格各方面都不一樣。
但這里面我也能體會(huì)到自己的優(yōu)勢,比如說管理,他們之前給我上了很多管理課,最終我發(fā)現(xiàn)精髓就兩個(gè)字:信任。這個(gè)和我以前做老師,背后的核心邏輯是相通的,可能表面看著有很多不一樣,但做事、管理不可避免會(huì)帶著原來的背景,也會(huì)做出不一樣的事情。
其實(shí)不光是我,湯老師以前做這些事情,能夠?qū)崿F(xiàn)超出行業(yè)引領(lǐng)性的東西,因?yàn)樗瓉硪膊皇且粋€(gè)企業(yè)家。有時(shí)候思考維度、追求的東西不一樣,反而能夠做出一些引領(lǐng)性的東西出來。
Q周曉鶯:您覺得在自己的發(fā)展經(jīng)歷當(dāng)中,什么對您影響特別大?
王曉剛:那肯定是湯老師對我影響最大,我2001年本科畢業(yè),那時(shí)連CVPR是什么都不知道,國外那些高水平研究、論文都沒見過。到后面他創(chuàng)立商湯,要做公司,我說我們做研究挺好的,為什么要做公司,他一步一步把我們的人生軌跡改變了。
周曉鶯:遇到一個(gè)好的老師,人生的引路人很重要。
王曉剛:2001年的時(shí)候,相當(dāng)于中國AI研究從中國走向世界,原來就是自己搞,都不知道高水平研究是什么。2014年就是AI落地了,從寫論文到產(chǎn)業(yè)落地,也是一個(gè)劃時(shí)代變化。再到2021年湯老師做國家實(shí)驗(yàn)室,AI變成了國家的一個(gè)戰(zhàn)略選擇,一個(gè)責(zé)任。所以說每一步都有深刻意義,也是在那個(gè)時(shí)代背景下發(fā)生的事。
Q周曉鶯:您對現(xiàn)在年輕人有什么好的建議嗎?
王曉剛:最早湯老師給我們的要求就是要堅(jiān)持原創(chuàng)、堅(jiān)持創(chuàng)新,做別人沒有做過、不敢想的事情,這在今天可能特別缺少。為什么會(huì)出現(xiàn)“百模大戰(zhàn)”?ChatGPT出現(xiàn)之前沒有“百模大戰(zhàn)”,因?yàn)橹按蠹也恢滥懿荒茏龀鰜恚跃筒煌度?。一旦做出來了,大家覺得是確定的東西,都開始做同樣的事情,重復(fù)消耗了很多資源。所以能夠跳出這些思維,勇于擔(dān)當(dāng)去做一些新東西,并且能夠堅(jiān)持。