?作者 | 張馬也,編輯 | 德新
智駕行業(yè)第一個開放的世界模型
大模型正重新定義智能汽車的體驗。如果說上半年的北京車展上,還只是一部分頭部車企圍繞端到端與大模型領域率先展開探索,那到了前不久的廣州車展,包括外資與合資車企在內,幾乎所有廠商都在擁抱端到端與大模型的技術路線。而大模型也本該是AI公司的主戰(zhàn)場。
11月27日,具有深厚AI背景的汽車科技公司商湯絕影舉辦了2024「絕影實力AI DAY」。商湯絕影展示了「駕-艙-云」三位一體的通用人工智能(AGI)產品體系與戰(zhàn)略布局,發(fā)布了一系列基于AI大模型的全新產品:
基于多模態(tài)大模型和獨有類人記憶框架的座艙產品「A New Member For U」
三階不同梯度的端到端智駕量產方案;
以及產品化的世界模型「開悟」。
多模態(tài)座艙大模型結合記憶框架,使汽車不僅是智能工具,更賦予其「有趣的靈魂」;而絕影在智駕領域多年的探索,也形成了一系列工程化的量產方案;尤為值得關注的是,這次發(fā)布的世界模型「開悟」。目前,各大頭部主機廠和Tier 1都在探索和研發(fā)世界模型,但還并沒有特別成熟的產品問世。世界模型通過生成高質量仿真數據,推動端到端智能駕駛的發(fā)展。「開悟」可以說是第一個產品化的,并且將向汽車行業(yè)開放的世界模型。
商湯絕影CEO、商湯科技聯合創(chuàng)始人、首席科學家王曉剛表示,基于世界模型,絕影打造出了真實數據和仿真數據的「雙輪驅動」閉環(huán),構建了車云一體的新范式。目前絕影的智駕方案,已量產交付廣汽埃安、一汽紅旗等3家車企6款車型。發(fā)布會上,商湯絕影還正式宣布與大卓智能、東風汽車等合作伙伴簽訂戰(zhàn)略合作協議,在高階智駕量產、端到端量產、AI云服務、AI大模型等領域開展全方位的深度合作。商湯絕影的AI大模型與端到端方案量產,正式拉開序幕。
讓座艙擁有「有趣的靈魂」
在智能座艙領域,商湯絕影一直是量產的領跑者。據第三方數據,絕影座艙視覺AI軟件市場份額連續(xù)5年位列行業(yè)第一,市面上你能看到的絕大部分智能車大概率都搭載了商湯絕影的座艙技術,比如蔚來、樂道、極氪、智己、小米等等。
座艙大模型從單模態(tài)走向多模態(tài)也是必然趨勢。而在這次發(fā)布會上,絕影拋出了一個有趣的產品化新思路:汽車是否可以擁有「靈魂」,并最終融入用戶家庭,成為一位「新成員」。
以往的車機交互,主要是工具導向,為用戶提供基礎的信息查詢和問題解答服務;但在智能化時代,它應該能學習、進化,提供更主動,更懂用戶的服務。沿著這種思路,商湯絕影打造了「A New Member For U」(你的家庭新成員),讓智能汽車能夠察言觀色,時刻準備著主動提供專屬服務,就像車主身邊的家庭新成員。
例如,在旅途中后排孩子睡著了,智能座艙會主動調高空調溫度、降低音樂音量,同時把底盤和駕駛模式調整為舒適模式,給小朋友一個舒適安心的休憩環(huán)境。
更重要的是,整個過程不需要用戶挨個下指令,而是它觀察、思考和推理之后提供主動的服務。王曉剛介紹,這位「家庭新成員」背后,商湯絕影研發(fā)了三大核心框架:
原生流式多模態(tài)大模型;
類人記憶框架;
Always-on持續(xù)運行框架;
原生流式多模態(tài)大模型能夠綜合理解文本、圖像、音頻、視頻、3D等信息模態(tài),包括人的表情、語氣等,做到全場景的多模態(tài)感知。商湯絕影還針對車載場景進行定制,融合車端感知數據、車端場景,進行針對性訓練。在全面感知的基礎上,模型可以進行深度理解和推理思考,具備理解世界、理解人類的能力。
要讓汽車擁有「靈魂」,就必須要有「記憶」,這是人類認知能力的基礎。
王曉剛表示,有了「記憶」,車輛才能與你會產生默契,不斷成長,直到與用戶心有靈犀。類人記憶框架,也是商湯絕影這一座艙解決方案重要的差異化技術。它與人類的記憶機制相似,擁有臨時記憶、長期記憶和場景記憶,三者結合讓系統實現類人的記憶能力。
臨時記憶,能記得一些瞬時信息,比如車里的物品、人的搭配、有沒有系安全帶等。
長期記憶,就像是一個檔案庫,存儲著用戶的基本信息、行為模式和偏好等,并且能自我迭代,能從用戶長期使用中總結規(guī)律并不斷優(yōu)化。
場景記憶可以從臨時記憶和長期記憶中提取重要信息,對這些信息實時處理和分析,作出決策或者解決問題。
最后是持續(xù)運行框架,它能夠將多模態(tài)感知到的信息與各種記憶相結合,進行高效的處理和反饋,做到時刻感知需求,主動為用戶服務。據介紹,「家庭新成員」的系統數據延遲控制在1毫秒以內,端側也能快速響應,目前首包耗時最短僅需60毫秒,推理速度40 Tokens/秒。它的反應速度可能比人還要快。這次「家庭新成員」產品的發(fā)布,不僅是商湯絕影AI大模型算法的一次集中展示,也展現了它對AI產品化的深度思考。
端到端智駕量產大潮
繼無圖城市NOA之后,端到端智駕已經成為智駕領域確定性的技術趨勢,也是當前車企在智駕傳播上的熱點。作為AI領域的龍頭公司,商湯絕影也是當仁不讓。絕影AI Day全面展示其多階的量產方案,包括基于地平線J6E/J6M、英偉達Orin/Thor等不同算力平臺打造的基礎智駕方案、全場景高階智駕、端到端智駕等絕影量產智駕產品體系,并正式發(fā)布基于UniAD打造的絕影量產端到端智駕方案AD Ultra。
基于地平線J6E和J6M兩個平臺,商湯絕影已經打造了AD Pro和AD Max兩個量產智駕方案,其中AD Max能夠實現城區(qū)無圖NOP。J6平臺的智駕方案,預計明年2季度就會量產交付。王曉剛介紹,絕影的UniAD純視覺端到端方案,無圖、無激光雷達,僅需1個毫米波雷達和11個攝像頭,跑在200T算力平臺上,就能夠實現一段式端到端智駕,實現「類人」駕駛體驗。
早在2022年,商湯及聯合實驗室提出行業(yè)首個感知決策一體化的自動駕駛通用模型UniAD,并榮獲CVPR 2023最佳論文。UniAD將感知、決策、規(guī)劃等模塊都整合到一個全棧Transformer端到端模型,實現感知決策一體化的端到端智能駕駛。2024年北京車展,商湯絕影也展出了這一方案的階段性成果。據HiEV了解,目前該方案已經在上海城區(qū)demo運行。
基于前述的高階智駕方案,商湯絕影已經與大卓智能、東風汽車等達成戰(zhàn)略合作,推進量產交付。憑借在大模型技術上的積累,商湯絕影正在向智駕第一梯隊發(fā)起沖擊。但如果只是拿出又一個端到端方案,可能無法滿足市場的期待。所以,面對端到端智駕長期持續(xù)的技術提升,商湯絕影還祭出了另一項絕招——世界模型。
汽車大模型之戰(zhàn),決戰(zhàn)在云端
本次發(fā)布會上,商湯絕影亮相的最為重磅的產品,是「開悟」世界模型。如果說,座艙和智駕因為用戶感知最明顯,很多車企希望將其掌握在自己手中,那世界模型,就是商湯絕影給車企發(fā)出的最無法拒絕的邀請。端到端大模型方案,能夠直接從原始傳感器數據中學習駕駛策略,減少了對傳統模塊化系統的依賴。但這種方案對高質量數據的需求極高,而且數據需要隨著模型的更新,不斷訓練迭代,其中的技術和成本要求都非常高。受限于量產規(guī)模、算力資源,目前大多數車企和智駕公司都面臨高質量駕駛數據的獲取難度大、效率低、成本高的問題。
因此,王曉剛表示:「智駕高端局的競爭不止是車端模型的比拼,端到端的決戰(zhàn),戰(zhàn)場在云端?!?/p>
商湯絕影的答案,是給行業(yè)提供「開悟」世界模型?!搁_悟」可以在云端生成高質量、真實的視頻數據,通過車企實車采集的數據,和仿真生成的數據,形成雙輪驅動的數據閉環(huán),從而讓智駕產品不斷迭代。在其中,商湯絕影承擔了大部分的算力設施和數據成本,車企也能在不需要大量新建算力基礎設施,掌握自己車輛數據的基礎上,更新智駕產品。
「開悟」世界模型能夠理解真實世界的物理規(guī)則、交通規(guī)則,生成的視頻數據也更加逼真?,F場展示的「開悟」生成視頻案例中,晴朗天氣下,汽車、路燈都是有影子的,右轉車輛會主動讓行優(yōu)先級更高的直行車輛。
在圖像真實的基礎上,「開悟」生成的場景視頻,時間最長為150秒、分辨率1080P、生成視角最多可以做到11V,是行業(yè)首個同時完成上述指標的智駕世界模型。目前,「開悟」世界模型可以支持多樣化的自動駕駛場景及Corner case的可控生成,可生成1024類場景,打造了千萬級的生成場景庫。
「開悟」預計將在2025年對行業(yè)開放。目前商湯絕影智駕系統20%的數據由「開悟」生成,未來會達到80%。「開悟」世界模型既符合商湯絕影一貫高舉高打的風格,也能最大化利用商湯智算中心的算力設施。商湯大裝置作為大模型基礎設施,為「開悟」提供了堅實的算力基礎。目前商湯總算力規(guī)模高達20000petaFLOPS,擁有超5.4萬塊GPU。
算法、算力、數據,是過去十多年人工智能浪潮的基石,現在在AGI與智能駕駛的新浪潮中,商湯絕影再次以這三者為基礎,構建了完整的產品體系。王曉剛在發(fā)布會上對車企喊話:商湯絕影是邁向AGI之路的最佳同行者,「在智能汽車與云端平臺之間流動的數據,將成為加速大模型上車的高效燃料」。大模型上車的號角已經吹響,商湯絕影的邀請函已經發(fā)出,車企們收到了嗎?