近年來,數據閉環(huán)成了自動駕駛行業(yè)的一個熱門話題,很多自動駕駛公司都在試圖打造自己的數據閉環(huán)系統。數據對于目前的自動駕駛來說有多重要早已不是什么新鮮話題,作為人工智能在工程落地上最有前景的領域之一,擁有著更多、質量更高的數據無疑可以讓智能駕駛的系統更加先進。與此同時,如何利用好現有的數據,從海量數據中能夠真正學習到人類駕駛的行為策略,將有助于算法的進一步更新迭代。而這所有的一切,都離不開數據閉環(huán),這也是當前自動駕駛公司為之努力的一大方向。
何為數據閉環(huán)?
事實上,數據閉環(huán)已經被大多數自動駕駛公司認為是提升自動駕駛能力的必經之路。以特斯拉為例,配置了自動駕駛硬件的車隊采集通過規(guī)則及影子模式下的觸發(fā)器篩選的數據,經過語義篩選后的數據被回傳到云端。此后,工程師在云端用工具對數據做一些處理,再把處理好的數據放入數據集群,然后利用這些有效數據訓練模型。模型訓練好之后,工程師會把訓練好的模型部署回車端做一系列的指標檢測,經過驗證的新模型會被部署到車端供駕駛員使用。在這種模型下,會有新的數據源源不斷被觸發(fā)回傳,從而形成循環(huán)。此時,一個完整的由數據驅動的迭代開發(fā)循環(huán)便形成了。
與傳統軟件的迭代優(yōu)化不同,自動駕駛系統的研發(fā)與優(yōu)化除代碼以外,還有更為關鍵的AI模型。代碼端的問題可以通過傳統的數據閉環(huán)方式予以解決,但模型端的調整則需要重新訓練或優(yōu)化AI算法模型。因此,自動駕駛數據閉環(huán)需要在傳統數據閉環(huán)方式上,引入一些新東西:就是數據采集、數據標注以及數據訓練。支持自動駕駛數據閉環(huán)實現周而復始、不斷向前的關鍵,也是新場景數據的不斷投喂。只有讓模型認識了足夠多的場景,才能獲得泛化性較高的智能軟件。
利用數據閉環(huán)打造智能系統
現實駕駛場景難以窮盡,極其復雜且不可預測,需要AI模型快速迭代升級。實現自動駕駛數據閉環(huán)的快速循環(huán)迭代,以滿足新場景模型適配問題,同時也需要各“長尾場景”數據的高效流轉。
模型訓練方面,目前AI算法模型已階段性基本成熟。在實際應用時,不同場景需要解決的問題不盡相同。這并非算法模型的問題,而是場景適配度的問題。自動駕駛AI模型后續(xù)調優(yōu)主要以數據迭代為主,需要投喂海量新場景數據。
數據采集方面,依靠遍布車身的各類傳感器,車輛每小時采集的數據量可達數TB之多。然而采集得到數據為非結構化數據,這些未經處理的數據并不能直接用于模型訓練,標注后才能產生使用價值。
橫亙在數據與模型訓練之間的首要問題是如何高效處理海量數據集,真實數據規(guī)模已然成為智能駕駛行業(yè)的“命脈”。然而與指數型增長的數據服務需求相比,無論數據處理效率亦或是數據產出質量均難以滿足市場需求。
產能方面,大部分數據服務商業(yè)務規(guī)模、執(zhí)行效率與項目經理能力高度綁定,產能瓶頸問題凸顯;數據產出質量方面,以點云數據為代表的數據處理需求占比逐漸擴大,傳統依靠簡單工具和依賴人力的業(yè)務執(zhí)行方式,也早已無法滿足垂直市場的需求。
自動駕駛實現規(guī)模化量產,數據服務領域能否率先實現突破,助力于數據閉環(huán)的最終形成將成為關鍵。
難度重重,數據驅動面臨多重挑戰(zhàn)
雖然業(yè)界已經公認數據驅動將是自動駕駛的未來趨勢與方向,但想要真正落地數據驅動模型也面臨著諸多的挑戰(zhàn)。
首先,便是數據的合規(guī)性問題。采集的數據是否符合國家規(guī)定,是否侵犯了用戶的隱私等等都是自動駕駛公司在采集數據時需要考慮的難題。拿高精地圖為例,在道路上采集數據的時候,企業(yè)需要具備國家測繪資質,并且要做相應的備案,否則采集過程中會被國安等部門阻止。目前,國內總共有約30家機構具備相關資質,有的企業(yè)具備國家電子導航甲級資質,適用范圍較廣,在國內多個城市都可以采集,而有的企業(yè)具備乙級資質,適用范圍就會更小,只能在特定的城市采集。與此同時,測繪的數據不得泄漏,尤其是不得將數據挪到國外,非中國國籍的人既不能獲取測繪數據,也不能在公司內操作測繪數據。這樣一來,無疑給需要大規(guī)模采集數據的自動駕駛公司戴上了緊箍咒,無法施展拳腳。
其次,數據的所有權歸屬問題。按照中國的《個人信息保護法》相關規(guī)定,非法律允許的數據采集受到隱私保護。在德國,原德國聯邦信息保護局有這樣的規(guī)定,如果司機不是受害者,未經對方同意就記錄其他司機的臉和車輛,是違反個人信息保護法的。也就是說,即使是車主記錄別人信息也可能屬于違法。但由于和新能源車伴生的自動駕駛行業(yè)很新,法律規(guī)定目前尚屬空缺,所以我們按照基本法學理念推導,量產車采集的數據應該由車主所有。目前,主機廠很少對外開放數據,導致自動駕駛Tier1在幫助主機廠實現了主機廠定制的功能后,很難收集到用戶在使用這些功能時的反饋數據,除非Tier1自己有很多測試車。那么,自動駕駛Tier1就難以根據用戶反饋的數據對相關功能做后續(xù)的優(yōu)化,數據閉環(huán)就難以實現。
最后,采集海量數據的標注與后處理也是自動駕駛公司們遇到的極大挑戰(zhàn)。據估計,從量產車回傳數據后,單車每日回傳的數據量大概為百兆級。研發(fā)階段,車輛總數可能只有幾十輛或者幾百輛。但是到了量產階段,車輛數目的量級可以達到上萬、幾十萬甚至更多。那么,量產階段,整個車隊日產生的數據量就是很大的數字。急劇增加的數據量給存儲空間以及數據處理的速度都帶來了挑戰(zhàn)。量產之后,數據處理的延遲需要和研發(fā)階段保持在同一個量級。但如果底層的基礎設施跟不上,數據處理的延遲就會隨著數據量的增長而相應地增加,這樣會極大地拖慢研發(fā)流程的進度。對于系統迭代來講,這種效率的降低是不可接受的。
總結
雖然在打造數據閉環(huán)之路上,自動駕駛公司們遭遇了多重的挑戰(zhàn)與困難,但無論誰都不可否認,這就是通向高階自動駕駛的必經之路。并且在現階段,已經有特斯拉這樣的車企的成功,證明了這個方向的可行性。在未來,數據閉環(huán)之路的挑戰(zhàn)也將被廠商們悉數解決,而有了海量高質量數據加成的自動駕駛系統,將會變得更加安全與智能。