作者 |?劉佳藝
隨著 L2+自動駕駛逐步滲透,行業(yè)向高階自動駕駛發(fā)起新一輪進攻。
整個算法架構也隨之不斷演進:
從獨立模型過渡到多任務學習;從傳感器數據后融合到前融合;從規(guī)則主導轉變?yōu)?a class="article-link" target="_blank" href="/tag/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0/">深度學習;…
另外,端到端成為各車企、Tier1 繞不開的技術關鍵詞。
比如理想發(fā)布「端到端+VLM」的全新模型架構,打出快慢系統的組合拳,能讓 AI 做出擬人化的駕駛行為。
而這些模型性能的進階,是基于底層開發(fā)工具鏈足夠強大。
具體要求是,能夠向更高效的網絡設計與算法優(yōu)化不斷靠攏。
這是 NVIDIA 的優(yōu)勢。
在近期《汽車之心·行家說》NVIDIA 專場中,作為全球領先的 AI 計算助推者,以自動駕駛開發(fā)平臺和數字孿生仿真平臺等推動行業(yè)發(fā)展,具體包括以下內容:
提供多傳感器數據融合與同步傳輸,實現快速感知與準確決策的相機全鏈路方案;
打造高效并行計算、實時 AI 推理于一體的軟件開發(fā)平臺 NVIDIA DriveOS?;
強算力且算力靈活調配,集成多種智能汽車功能的車載計算平臺 NVIDIA DRIVE Thor?;具備先進渲染技術,提供高逼真虛擬環(huán)境進行模型訓練、測試與驗證的數字孿生平臺 NVIDIA Omniverse?;
……
這一整套軟硬件耦合的開發(fā)體系,貫穿從數據處理到仿真訓練的全過程,在此基礎上,開發(fā)者們能夠高效進行研發(fā)任務,并實現超越預期的高性能表現。
而如何熟悉并快速上車這一系列工具,突破自動駕駛的開發(fā)瓶頸,在《汽車之心·行家說》NVIDIA 專場中,NVIDIA 及麗臺科技的技術團隊對此做出了細致解答。
01?聚焦 Multicast 應用,打造相機全鏈路方案
NVIDIA 專為自動駕駛打造了一套基礎平臺 NVIDIA DriveOS,使汽車能夠高效處理海量傳感器數據,利用深度學習實現對環(huán)境的感知與適應,并滿足嚴格的安全標準。
從針對 Drive Thor 打造的軟件堆棧示意圖上,可以看到從底層傳感器設備開始,到硬件系統,以及軟件系統,形成了一套緊密耦合的開發(fā)架構。
在軟件部分,包含一系列重要組件,比如 NVStreams、NvMedia、NvSIPL Drivers 等,它們的作用在于快速、準確抓取傳感器圖像數據并進行優(yōu)化處理,這其中要經過一連串硬件引擎來幫助數據轉化成對應格式。
例如,從相機抓住的圖像幀,經過硬件引擎——ISP(圖像信號處理器)完成處理,然后傳輸給 VIC(視頻輸入控制器)引擎進行視頻化操作,最后傳輸給顯示器。
由此,對于復雜的相機全鏈路,往往包含大量復雜的數據信息,如何把這些硬件引擎有效串聯,實現信息傳輸成為一個挑戰(zhàn)。
這其中就涉及到兩個重要組件,一個是 NVStreams,另一個是 NvSIPL。
- 前者能夠將數據流水線各部分串聯,實現數據的無縫傳輸,以及不同引擎之間的協同工作;后者能夠初始化和配置圖像傳感器,高效采集數據,進行圖像預處理等工作。
有這兩個組件作為基礎支持,可以實現 Multicast 的強大應用。
所謂 Multicast,指的是一個參考應用程序,它展示了使用 NVIDIA DriveOS SDK(包括但不限于 NvMedia SIPL、NVStreams、CUDA 和 TensorRT)構建相機全鏈路并實現無縫數據傳輸的端到端解決方案。
在 Multicast 應用場景上,支持跨進程、跨線程、跨 SoC 等多種復雜的通信方式。
從跨進程示例中可以清晰看到,生產者進程中有兩種數據源,分別來自真實采集與虛擬數據,到達消費者進程后,數據會進行多種處理方式,比如通過 VIC 模塊轉變圖像格式到達 CUDA 模塊進一步處理,或者通過 CUDA 模塊修改圖像數據后傳輸到下游 Encoder 模塊進行編碼等。
事實上,由于各車企、Tier1 的產品特性、工具需求各不相同,這要求 Multicast 必須滿足擴展性強,靈活性高的特點。
由此,Multicast 的核心設計思想為兩個字,分層。
從上到下,依次是展示層、業(yè)務層、傳輸層,其中,展示層扮演指揮者角色,負責構建數據流水線并管理整個系統的生命周期;業(yè)務層則是將數據放到對應模塊中進行格式轉化;最后傳輸層負責鏈路建立與數據通信。
由于采用分層設計,各層級各司其職,能減少產生任何數據、業(yè)務方面的耦合,從而適用于更復雜的數據處理鏈路。另外,利用 Multicast 還能有效檢測出系統中潛在的性能問題,幫助系統快速完成優(yōu)化。
值得一提的是,Multicast 在自動駕駛應用領域能夠釋放出諸多特性,比如:
- Stitching(圖像拼接),將多傳感器數據拼接在一起傳輸給顯示器;Car detection(車輛檢測),能夠將傳感器檢測到車輛數據準確畫框標識;DP MST(多流傳輸),對多通道的傳感器數據進行處理后傳輸到不同顯示器上;Late attach(后期連接),在某個特定的流程或系統運行的后期階段進行連接或附加操作;Multiple element(多元素處理),多個輸出輸入端口,實現數據的靈活處理;Sc7(待機模式),采用低功耗模式優(yōu)化系統啟動時間;Sentry mode(哨兵模式),在停車模式下傳感器對車輛周圍情況進行實時檢測,將數據進行脫敏處理后上傳到顯示器。
NVIDIA Multicast 這套強大、靈活的應用程序,貫穿了車輛在自動駕駛、泊車領域的多個維度設計,其開放、可擴展性強的特點能夠讓各車企、Tier1 開發(fā)者們實現便捷、高效的定制化服務。
02?端到端技術浪潮下,完成 DRIVE Thor 的高效部署
端到端給自動駕駛領域點了一把火,這種全新架構,對數據、算力、算法三駕馬車提出了嚴苛要求。
由此,繼 NVIDIA DRIVE Orin? 在自動駕駛領域得到廣泛應用后,NVIDIA 又推出了新一代車載計算平臺 Drive Thor,從底層工具鏈上引領行業(yè)向高階自動駕駛遞進。
不同于以往的?NVIDIA?Ampere?架構,Drive Thor 基于全新?NVIDIA Blackwell 架構,誕生出了全新特性:
- 針對 LLM/VLM 應用進行優(yōu)化,最高達到 2000TOPs 的 FP4 算力;Tensor 推理引擎更新到 10.x 版本,進行更好的圖優(yōu)化策略;采用 L2 Tiling&Chaining 技術,實現更好優(yōu)化與性能加速效果;引入靈活 GPU 調度方案,能夠支撐起端到端+VLM 的架構設計;
……
實際上,從特性回溯,可以看到 Drive Thor 是完全適用于端到端模型的計算平臺。之所以在各維度上得到優(yōu)化與提升,是因為它需要應對更復雜、非結構化的大量場景,這是一個不斷迭代的過程。
- 自動駕駛以往面臨傳統常規(guī)道路,模型參數可以壓縮到最小,只需要 10x TOPS 的算力;而面對一些施工道路的非結構化場景,采用的是搭載 Orin 平臺的 BEV&Transformer 架構設計,減少了對高精地圖的依賴,需要 100x TOPs 算力;面臨隨機性強的執(zhí)法場景,算力需求又提升到一個新的量級,到達 1000x TOPS,才能把「端到端+VLM」這類「通用能力」模型跑起來。
另外,Drive 平臺對大模型的支持情況已經覆蓋全面,從 Drive Orin 的廣泛應用中,可以明確看到無論是 LLAMA、GPT 還是國內百川大模型等,都能釋放出不錯性能。
理想已經應用了「端到端+VLM」的雙系統智駕方案,由端到端模型擔任快系統,能夠快速接收傳感器輸入,并直接輸出行駛軌跡用于控制車輛,應對駕駛車輛時 95% 的常規(guī)場景。
剩下 5% 的復雜場景,如臨時施工、交通管制等,由「VLM」的慢系統實現,它能夠進行深入理解產生邏輯思考,最后輸出決策信息給快系統。
雙系統相互配合,從而確保了自動駕駛能高效處理多數場景,并覆蓋復雜路況。
當然,要駕馭這套模型架構,算力平臺不僅要有充足的算力儲備,還需要支持靈活配置「算力調度」策略。
在執(zhí)行端到端任務時,優(yōu)先級往往更高,對于算力調度需要及時,而在處理低速一些極端場景時,優(yōu)先級更低。同樣,在進行一些座艙交互、娛樂功能時,就可以把自動駕駛占用的 GPU 讓出來。
這種算力調度的需求落地,在 NVIDIA Drive Thor 上能被充分滿足,并提供了兩種方案。
第一種是 MIG 方案,對算力、L2 cache、帶寬進行切分,實現 ADAS/LLM 域的「硬隔離」,不同任務在運行時相互獨立,不受干擾。
第二種是 GPU 分時調度方案,實現 ADAS/LLM 域的「軟隔離」,應用上可以獨占片上算力、帶寬。正如「端到端+VLM」方案上,在不同行車場景時賦予不同任務優(yōu)先級,從而實現算力的靈活調度。
除了支持這類模型架構,NVIDIA 自己也搭建了一套 Model room,其中包含車道檢測、多模塊設計等相應組件,NVIDIA 都做了深度優(yōu)化,用戶可以在優(yōu)化組件基礎上構建出自己的大模型方案。
目前,Model room 已經支持 10+個純視覺模型、2 個視覺+激光模型,以及一個端到端模型。在優(yōu)化層面做了 INT8 精度量化、4:2 結構化稀疏、量化稀疏 finetune 等推理訓練。可以看到,Model room 在當前純視覺方案基礎上,已經可以做到比開源的視覺基線要更好一些。
而對于端到端這種全新架構,在模型部署上必然會面臨一些新挑戰(zhàn)。以上海 OpenDriveLab 提出的 UniAD 架構為例,相比 BEV & Transformer 架構,它在 perception 基礎上增加了 TrackFormer、Motion Former、OccFormer 和 Planner 等相應組件,中間通過 QKV 機制進行通訊。而從 SparseDrive 公布的端到端架構中,把建圖感知與規(guī)劃預測分為兩個模塊,中間進行信息傳遞,對于 Transfomer 結構依然存在一定依賴。
所以,可以把端到端架構特點總結為四點:
- 更多的 transformer 結構 (特別是 PNP 部分)為融合多模態(tài)信息引入很多 shortcut模型更大,結構更深輸入量綱不統一
對應的,NVIDIA 在 Thor TensorRT(10.x) 版本上引入了針對性解決方案,比如 Blackwell Flash Attention 方案、新一代圖優(yōu)化編譯引擎、L2 cache Tiling&Chaining、新的混合精度類型等,幫助對應結構進行有效優(yōu)化。
03?OpenUSD 打通數據格式,利用 Omniverse 構建數字工廠
自動駕駛模型建設離不開仿真環(huán)節(jié),作為自動駕駛開發(fā)領域中的重要一環(huán),它需要和其它環(huán)節(jié)有機結合在一起,形成一個數據驅動閉環(huán)。
這就要求,仿真軟件需要具備強大的兼容性,并且能夠構建出高質量場景庫,泛化出更多場景。
NVIDlA Omniverse 平臺集成了 NVIDlA 20 余年的技術結晶,在自動駕駛仿真領域以及汽車數字工廠建設上,都迸發(fā)出強大勢能。
首先,NVIDlA Omniverse 平臺基于 OpenUSD 這一技術基礎。它是一種統一數據格式,能夠把傳統 CAD、Python 等不同的軟件語言全部兼容轉化成一種語言,然后將數字資產全部轉化到 NVIDlA Omniverse 平臺進行下一步的可視化作業(yè)。
這個強大應用進行生態(tài)打通后,可以釋放出多種特性:
- 聯接多樣化工具,包括 AR、VR、DCC 等各種類型的軟件工具及數字資產;利用多種工具實現定制化工作流程;分層化設計,實現多人協同工作,并不局限于一種平臺生態(tài)。
除了 OpenUSD 之外,NVIDlA 還擁有光追渲染的 NVIDIA RTX? 技術、加速計算能力以及生成式 AI 等技術儲備,都集成在 NVIDlA Omniverse 平臺中。
在自動駕駛仿真領域,基于 OpenUSD 的數據格式場景,Omniverse 平臺可以將大模型對接進來,實時生成可視化數據,展示碰撞報告等,在此過程中,還可以對虛擬場景進行多維度設置,比如車速、自然天氣、極端情況等,從而高效幫助模型進行優(yōu)化,節(jié)省人力、物力成本。
在建設數字工廠領域,Omniverse 平臺通過虛擬場景的提前驗證與排查,改進生產線的效率問題。
在通用汽車案例中,就通過 Omniverse 平臺構建了統一的數據工作流程,開發(fā)者可以在原有熟悉的軟件中進行設計作業(yè),并且通過 OpenUSD 與 Omniverse 平臺完成實時協作,進而減少數據傳導時間,簡化工作流程。
更具體一些,A 同事在對汽車模型進行調整,包括位置移動、布線擺放等;B 同事通過 UE 對場景進行搭建及紋理生成,C 同事在 Omniverse 平臺中進行實時渲染和查看,三者操作可以實時進行,一旦發(fā)生問題可以及時反饋解決。
這意味著,工作流程基于 Omniverse 平臺得到重新構建,以往是以往是從建模軟件到材質軟件,再到仿真軟件的層層過渡,現在所有軟件通過統一 USD 格式,完成實時的審查、協作以及評審工作。
這種降本增效能力直接反饋到數據增長上,比如寶馬建設全球虛擬工廠規(guī)劃及運營,實現設計凍結時間節(jié)省了 98%,計劃進程速度提升了 30%;奔馳打造虛擬裝配線,實現建設時間縮短兩倍,能耗上節(jié)約了 20%。
實際上,Omniverse 不僅是工具,而是一個開發(fā)平臺。它需要多人協同,一同將這個框架擴展的更加完整,生態(tài)更加豐富。
總之,一個理想的工具鏈需滿足的核心要求是,高效。
自動駕駛級別越往上走,開發(fā)難度成指數級增長,高效二字變得越來越難實現。
但 NVIDIA 憑借多年技術累積,打造出一系列穩(wěn)定、可靠的軟硬件工具箱,無論是解決信息傳輸問題的相機全鏈路方案,還是比 Drive Orin 性能更進階的 Drive Thor,亦或者集成 20 年經驗的數字孿生 Omniverse 平臺,都從不同維度按下了研發(fā)的「加速鍵」。
由此,自動駕駛開發(fā)者們能夠更加專注于技術的創(chuàng)新與突破,而不必為繁瑣的工具鏈問題所分心。
*與 NVIDIA 產品相關的圖片或視頻(完整或部分)的版權均歸 NVIDIA Corporation 所有。