亚洲天堂无码在线视频观看,亚洲日本色色一区,高清影视大全

佐思汽研發(fā)布《2024-2025年端到端自動駕駛產(chǎn)業(yè)研究報告》。

端到端自動駕駛有全局式（一段式）和分段式（兩段式）兩種，其中全局式端到端思路清晰，研發(fā)成本遠低于分段式，無需任何人工標注數(shù)據(jù)集，依賴谷歌、META、阿里和OpenAI等開發(fā)的多模態(tài)大模型。站在這些科技巨人肩上，性能比分段式端到端要好不少，但部署成本極高。

分段式的感知階段仍然使用傳統(tǒng)的CNN骨干網(wǎng)提取特征，在路徑規(guī)劃階段使用端到端，性能雖然不如全局式，但部署成本比全局式端到端要低。這里的部署成本低是相對的，與目前主流的傳統(tǒng)BEV+OCC+決策樹相比，分段式的部署成本還是很高的。

全局式端到端的代表：WAYMO的EMMA

全局式端到端的代表有Waymo的EMMA，直接輸入視頻，沒有骨干網(wǎng)，核心就是多模態(tài)大模型。分段式端到端的代表有UniAD。

分段式端到端的典型代表：UniAD整體架構

以能否得到反饋為標準，端到端自動駕駛的研究主要分為兩類：一類是在模擬器比如CARLA中進行，規(guī)劃的下一步指令可以被真實的執(zhí)行；第二類主要是在已經(jīng)采集的現(xiàn)實數(shù)據(jù)上進行端到端研究，主要是模仿學習，參考UniAD。端到端自動駕駛目前都是開環(huán)的，不能真正看到自己的預測指令執(zhí)行后的效果。由于不能得到反饋，開環(huán)自動駕駛的測評很受限制，現(xiàn)在文獻中常用的兩種指標包括L2距離和碰撞率。

Collision Rate碰撞率: 通過計算預測軌跡和其他物體發(fā)生碰撞的概率，來評價預測軌跡的安全性

端到端自動駕駛最吸引人之處是性能提升潛力大，最早的端到端是UniAD，這是2022年底的論文，L2距離高達1.03米，2023年底就大幅提升至0.55米，2024年底進一步升到0.22米。地平線是端到端領域最活躍的公司之一，其技術發(fā)展路徑也顯示出了端到端路線整體的演進路徑。UniAD出來之后，地平線立刻提出理念與UniAD接近的VAD，性能遠超UniAD。這之后地平線轉向全局端到端，第一個成果是HE-Driver，參數(shù)量比較大，然后是最近的Senna，參數(shù)量有所縮小，也是目前性能最佳的端到端方案之一。

Senna模型

部分端到端系統(tǒng)的核心仍然是傳統(tǒng)算法BEVFormer，BEVFormer默認使用了車輛CAN總線信息，這里面包含了與自車速度，加速度，轉向角相關的信息，這些都是顯性的，對路徑規(guī)劃影響很大。這些端到端系統(tǒng)仍然需要監(jiān)督訓練，大量的人工標注就不可缺少，這讓數(shù)據(jù)成本很高，再有既然借鑒了GPT的理念，為何不直接用LLM？于是有了理想汽車的DriveVLM。

理想DriveVLM的模型pipeline，主要包括場景描述、場景分析、層級規(guī)劃三個主要模塊設計。

DriveVLM場景描述模塊的功能主要分為兩部分——環(huán)境描述和關鍵物體識別。其中，環(huán)境描述主要是對共性的駕駛環(huán)境的描述，比如天氣和道路狀況等；關鍵物體識別則是為了找出對于當前駕駛決策產(chǎn)生較大影響的關鍵物體。環(huán)境描述共包括以下四個部分：天氣、時間、道路類型、車道線狀況。

區(qū)別于傳統(tǒng)自動駕駛感知模塊將所有待檢測物體都檢出，DriveVLM 專注于識別當前駕駛場景中最有可能影響自車駕駛決策的物體，稱之為關鍵物體，因為全部都檢出會消耗天量算力。得益于理想汽車累積的海量自動駕駛數(shù)據(jù)的預訓練以及開源的大模型，VLM相較傳統(tǒng)3D目標檢測器能夠更好的檢出長尾的關鍵物體，比如路面雜物或者非常見動物等。

對于每個關鍵物體，DriveVLM會分別輸出其語義類別c和對應的2D目標框b。預訓練來自NLP大模型領域，因為NLP用的標注數(shù)據(jù)很少，很昂貴，預訓練首先利用海量的未標注數(shù)據(jù)訓練，找到語言結構特征，然后再利用prompt做標簽，微調(diào)來解決具體的下游任務。

DriveVLM徹底放棄了BEVFormer這種傳統(tǒng)算法做核心，只用多模態(tài)大模型。理想汽車DriveVLM使用阿里Qwen-VL大模型，參數(shù)量高達97億，輸入清晰度選擇448*448這種最低清晰度，用英偉達Orin做推理運算。

理想汽車如何從高端智駕追隨者成為領先者？

2023年初，理想汽車在NOA大戰(zhàn)中還是一個落后者，但2023年開始全力投入高階自動駕駛研發(fā)后，2024年經(jīng)過多次NOA版本升級，到2024年11月底率先推出車位到車位全場景自動駕駛，從而成為高階智駕（NOA）量產(chǎn)的領先者。

回顧理想汽車端到端智駕的發(fā)展歷程，除了自身數(shù)十萬用戶提供的數(shù)據(jù)支持外，還與多家合作伙伴開展端到端模型的研發(fā)合作。DriveVLM就是理想汽車和清華大學合作推出的。

除了上面提到的DriveVLM，理想汽車還與上海期智研究院、復旦大學等推出STR2，與極佳科技、中國科學院自動化研究所等單位提出DriveDreamer4D，與清華大學合作推出MoE方案等。

MoE混合專家架構

為了解決大模型參數(shù)太多，計算量太大的弊病，理想汽車與清華大學合作，采用了MoE即混合專家架構?；旌蠈＜遥∕ixture of Experts，簡稱MoE）是一種集成學習方法，它通過將多個專業(yè)化的子模型（即“專家”）組合起來，形成一個整體模型。每一個“專家”都在其擅長的領域內(nèi)做出貢獻。而決定哪個“專家”參與解答特定問題的，是一個稱為“門控網(wǎng)絡”的機制。每個專家模型可以專注于解決特定的子問題，而整體模型則能夠在復雜的任務中獲得更好的性能?；旌蠈＜曳椒ㄟm用于處理大規(guī)模數(shù)據(jù)集，能夠有效地應對數(shù)據(jù)量巨大和特征復雜的挑戰(zhàn)。這是因為它可以并行處理不同的子任務，充分利用計算資源，提高模型的訓練和推理效率。

STR2路徑規(guī)劃方案

STR2是一種基于Vision Transformer（ViT）和混合專家（MoE）架構的運動規(guī)劃方案，由理想汽車聯(lián)合來自上海期智研究院、復旦大學等高校機構的研究人員共同開發(fā)。

STR2的核心思路是利用MoE架構在訓練過程中通過專家路由來解決模態(tài)崩潰和獎勵平衡問題，從而提高模型在未知或少見情況下的泛化能力。

DriveDreamer4D世界模型

2024年10月底，極佳科技聯(lián)合中國科學院自動化研究所、理想汽車、北京大學、慕尼黑工業(yè)大學等單位提出DriveDreamer4D。

隨后，基于世界模型的視頻生成能力，并利用更新軌跡后得到的結構化信息作為控制條件，可以合成新軌跡的視頻。最后，原始軌跡視頻與新軌跡視頻相結合，進行 4DGS 模型的優(yōu)化。

端到端智駕研究：理想如何從智駕追隨者成為領先者

相關推薦