?原文作者?PhilipKoopman&MichaelWagner 翻譯 小明師兄
摘要
驗證高度自動化車輛(HAVs)的安全性是自動駕駛面臨的一個非常重要的挑戰(zhàn)。僅依賴大規(guī)模道路測試活動的HAV安全驗證策略是不太可行的。雖然仿真和進行邊緣案例場景測試可以幫助降低驗證成本,但單獨使用這些技術(shù)可能無法為全面部署提供足夠的保障,除非采用更為細(xì)致入微的驗證數(shù)據(jù)收集和安全分析方法??梢酝ㄟ^使用更高精度的測試來明確驗證較低精度測試的假設(shè)和簡化,而不僅僅是獲得較低精度結(jié)果的采樣復(fù)制。將多個測試目標(biāo)分開可以幫助驗證流程,包括需求、環(huán)境模型充分性、自主性正確性、自主性穩(wěn)健性和測試場景充分性。對于隱式設(shè)計和要求的自主性方法,例如機器學(xué)習(xí)訓(xùn)練數(shù)據(jù)集,可以在架構(gòu)中建立可觀測點,以確保車輛通過正確的測試出于正確的原因。這些原則可以提高HAV安全性驗證的效率和效果,作為一個包括“駕駛員測試”和生命周期監(jiān)測的分階段驗證計劃的一部分,并明確管理驗證不確定性。
概述
盡管面臨重大跨學(xué)科挑戰(zhàn),高度自動化車輛(HAVs)的廣泛部署似乎也近在眼前。目前,關(guān)于驗證這些車輛的非傳統(tǒng)軟件方面安全性的技術(shù)策略尚無共識。鑒于美國國家公路交通安全管理局(NHTSA)采取的“自動駕駛車輛技術(shù)安全的非監(jiān)管方法”,許多HAVs似乎會在開發(fā)團隊認(rèn)為車輛已經(jīng)就緒的時候立即投入使用,然后再看在公共道路上的表現(xiàn)。即使試點部署顯示出可接受的低事故率,仍然存在一個問題,即有限規(guī)模的部署是否能準(zhǔn)確預(yù)測更大規(guī)模的部署以及隨之而來的未來軟件更新的安全性。
通??梢钥吹接嘘P(guān)積累道路里程將驗證HAV系統(tǒng)安全性的說法,特別是在試圖評估開發(fā)工作進展的背景下。然而,即使涉及其他形式的驗證,更全面的討論仍然傾向于強調(diào)測試的作用。然而,即使在封閉賽道和高保真度仿真的情況下,部署前可以進行的車輛級測試仍然受到限制。
本文的范圍是在ISO 26262合規(guī)性之外所需的驗證,重點是SAE Level 4自主性。Level 4 HAVs只需要在定義的運行設(shè)計域(ODD)內(nèi)自主操作,該域定義了系統(tǒng)預(yù)期運行的特定條件。
對HAV自主性的安全驗證方法需要超越里程積累,這是非常可取的。最好是基于一種包括具體、可測試的安全目標(biāo)和要求的反證法。本文提出了一些提高HAV驗證效率、增加有效性并形成更具可辯護性安全論證的方法。分層的驗證步驟系列可以幫助支持結(jié)論,即HAV系統(tǒng)在沒有完全規(guī)定的傳統(tǒng)自主性功能要求集的情況下是可接受安全的。
方法
文章認(rèn)為,通過應(yīng)用以下觀點,可以顯著增強HAV驗證工作:
1. 通過分別管理需求驗證和設(shè)計驗證,將測試的不同目標(biāo)分開。
2. 使用更高保真度的仿真和測試,減少由于較低保真度仿真和測試中的假設(shè)和差距而產(chǎn)生的殘余風(fēng)險。
3. 在HAV架構(gòu)中提供可觀察性,確保測試通過的原因是正確的。
4. 明確地管理安全論證中的不確定性。
盡管這些觀點基于某些領(lǐng)域現(xiàn)有的實踐,HAV技術(shù)的新穎性和HAV商業(yè)化的速度促使我們清晰地、統(tǒng)一地描述如何應(yīng)用這些觀點,以管理和降低激進HAV部署的風(fēng)險。
術(shù)語
本文的術(shù)語通常與ISO 26262兼容。以下術(shù)語特別相關(guān):風(fēng)險:是可能導(dǎo)致?lián)p失事件的事故發(fā)生的概率和后果的綜合度量。
安全:是指沒有不合理風(fēng)險導(dǎo)致?lián)p失事件的狀態(tài)。Level 4自動駕駛車輛的損失事件可能包括可能歸因于自動駕駛車輛設(shè)計缺陷或操作失誤的致命事故。對于初期的自動駕駛車輛部署,關(guān)于“合理風(fēng)險”的界定將受到公共政策決策的影響。
安全驗證:證明系統(tǒng)級別的安全要求(安全目標(biāo))足以確??山邮艿陌踩剑⒁呀?jīng)實現(xiàn)的過程。
安全論證(安全案例):支持安全驗證的書面論證和證據(jù)。
機器學(xué)習(xí)(ML):一種采用歸納學(xué)習(xí)進行系統(tǒng)設(shè)計的方法,其中運行時系統(tǒng)使用學(xué)習(xí)過程的結(jié)果執(zhí)行算法操作(例如,運行具有預(yù)先計算權(quán)重的深度卷積神經(jīng)網(wǎng)絡(luò))。
本文假定在驗證之前權(quán)重是固定的。對于在運行時修改權(quán)重或以其他方式學(xué)習(xí)的動態(tài)自適應(yīng)ML系統(tǒng)的驗證超出了本文的范圍。
車輛測試和仿真的作用
在描述擬議的驗證策略之前,回顧當(dāng)前高度自動化車輛(HAV)安全評估方法中測試和仿真的典型用途將會有所幫助。.
超越 ISO 26262
處理許多潛在設(shè)計和實施缺陷可以并且應(yīng)該通過采用已建立的安全標(biāo)準(zhǔn),例如ISO 26262來完成。對于即使是一個完全工作的系統(tǒng)也可能無法提供完全安全功能的領(lǐng)域,可以使用覆蓋“預(yù)期功能安全”(Safety of the Intended Functionality,SOTIF)的新興標(biāo)準(zhǔn)。SOTIF標(biāo)準(zhǔn)可能提供了一種處理具有統(tǒng)計上有效功能的方法,例如基于雷達(dá)的障礙物檢測功能。ML系統(tǒng)特有的其他問題也必須得到解決,如所述。總的來說,在功能安全方法中通常采用的V模型驗證的問題在于,ML系統(tǒng)的功能對人類來說可能是不透明的。這使得可追溯性成為一個問題,到了人類進行追溯分析時,他們無法分析設(shè)計文檔。
我們不試圖按照V模型嘗試設(shè)計到測試的可追溯性方法,相反,我們探討了在ISO 26262和SOTIF標(biāo)準(zhǔn)的實際應(yīng)用范圍之外,特別是對于ML驗證而言的,基于測試的方法可以做些什么。
系統(tǒng)測試/調(diào)試/優(yōu)化作為基本策略
在原型自動駕駛車輛的制造過程中,歷史上一直強調(diào)在道路上的測試。機器人領(lǐng)域嚴(yán)重依賴于“現(xiàn)實世界”測試,以便了解機器人需要的功能。然而,隨著車輛從原型制造過程過渡到量產(chǎn),驗證的方法必須變得更加全面。
僅僅依靠累積道路里程來構(gòu)建HAV安全性論證是一種不切實際的驗證方法。這種蠻力的方法需要大量的里程才能形成一個可信的統(tǒng)計論證。而且,隨著每次軟件更改,無論是更新訓(xùn)練數(shù)據(jù),添加新行為,還是進行安全修補,累積的道路測試證據(jù)的有效性都可能受到破壞。
實際上,如果經(jīng)過數(shù)十億英里的道路測試和仿真后的數(shù)據(jù)顯示HAV未達(dá)到期望的安全目標(biāo),會發(fā)生什么?開發(fā)團隊(或者說他們應(yīng)該)在修復(fù)了任何觀察到的缺陷后,是否會再進行數(shù)十億英里的道路測試?還是團隊只會修復(fù)那些可以容易地再現(xiàn)的錯誤,測試幾英里,宣告勝利,然后開始部署?而市場競爭的壓力將如何影響團隊對結(jié)果的解釋和驗證方法?
實際上,幾乎所有其他行業(yè)在軟件系統(tǒng)的功能安全驗證上,不是依賴試驗部署,而是依賴測試和其他可以由獨立評估人員評估的驗證方法。如果自動駕駛汽車行業(yè)希望遵循這些先例,它將需要一種建立系統(tǒng)性、可辯護的安全論證的方法,盡管會遇到獨特的驗證挑戰(zhàn)。
車輛級別測試和仿真的局限性
實際上,進行足夠的普通系統(tǒng)級測試以確保生命關(guān)鍵系統(tǒng)的安全是不可能的??偟膩碚f,這是因為汽車車隊的暴露度非常高,生命關(guān)鍵的安全要求非常嚴(yán)格,因此測試無法積累足夠的小時數(shù)來統(tǒng)計證明安全性。
對于HAVs,測試不可行性問題的一種表現(xiàn)是,必須安全地處理不尋常的情況,但在正常駕駛中這種情況相對較少。在道路上測試是觀察偶發(fā)出現(xiàn)的罕見事件的一種低效方式。封閉賽道測試可以通過將它們設(shè)置為明確設(shè)計的測試場景,將已知的罕見事件設(shè)置為加速暴露的方式。例如,Waymo除了其道路測試項目外,還使用封閉賽道測試和大規(guī)模仿真進行測試。
即使是覆蓋已知場景也可能面臨資源限制的挑戰(zhàn),尤其是如果它僅涉及使用實體車輛?;谲浖能囕v仿真可以通過在多臺計算機上并行運行仿真來擴展測試場景的覆蓋范圍,但不可避免地涉及保真度與運行時成本之間的權(quán)衡,以及軟件模型的完整性和準(zhǔn)確性的問題。仿真可能無法仿真未預(yù)料到的情況(例如,未知的與安全相關(guān)的罕見事件)。
“影子模式”駕駛和SAE Level 3自動駕駛部署可以通過監(jiān)控一個由人類駕駛員負(fù)責(zé)安全性的部署車隊,增加暴露到現(xiàn)實世界駕駛場景的機會。然而,關(guān)于人類駕駛員是否能有效監(jiān)督Level 3系統(tǒng)的安全性存在爭議。
道路測試、封閉賽道測試、仿真和人工駕駛系統(tǒng)的監(jiān)控在展示HAV安全性方面都有重要作用。然而,為了既有效又高效,它們應(yīng)該以一種互補的方式組織在一起。(我們承認(rèn)許多HAV開發(fā)者在驗證方面采用了先進但專有的方法。在本文中,我們假定采用了一個基礎(chǔ)的里程積累方法,以說明這些問題。)
為了仿真的真實性而仿真是低效的
當(dāng)問到為什么在道路上使用真實車輛進行測試比仿真更好時,通常的答案是因為它更“真實”。毫無疑問,在真實世界中測試真實車輛至關(guān)重要。但是僅僅追求真實性本身是對測試資源的一種低效,最終是不可負(fù)擔(dān)的使用方式。
仿真的有效性關(guān)鍵在于具有足夠的真實性(仿真逼真度)以完成任務(wù)。有人著名地說過:“所有模型都是錯誤的,但有些是有用的?!庇捎诜抡嫔婕跋到y(tǒng)的模型、環(huán)境的模型以及系統(tǒng)使用的模型,可以得出沒有仿真是完美的。
仿真的逼真度是仿真在系統(tǒng)行為方面進行簡化和假設(shè)的程度。低逼真度的仿真通常通過使用系統(tǒng)的簡化表示(有時稱為降階模型)來快速執(zhí)行,因此在某種程度上是“錯誤的”。高逼真度的仿真通常更復(fù)雜,執(zhí)行成本更高,但包含的簡化和假設(shè)較少,因此“錯誤性”較低。但是,這兩種類型的模型都可以是有用的。
提高測試效率的關(guān)鍵在于認(rèn)識到并非所有的真實性對所有測試都是有用的。舉個簡單的例子,對于確定計算機視覺功能是否能夠看到道路上的孩子,建模道路表面摩擦系數(shù)通常是無關(guān)緊要的(摩擦系數(shù)可能與車輛能否及時停下來有關(guān),但與是否能夠檢測到特定幾何和環(huán)境場景是否會導(dǎo)致檢測到孩子無關(guān))。無論是在軟件仿真(通過對不同道路表面進行建模)還是在仿真測試軌道場景(通過在柏油路上放置沙子或冰)中進行測試,都是如此。
有效和高效的仿真的關(guān)鍵在于考慮到被驗證系統(tǒng)、各種逼真度模型以及操作環(huán)境的假設(shè)。因此,任何實際的驗證工作都應(yīng)該被視為一系列層次分明的抽象程度和逼真度的模型。以這種方式看,封閉場地測試是一種仿真,因為即使涉及的障礙和車輛是真實的,場景也是“仿真的”。驗證HAV的安全性將需要確保HAV系統(tǒng)模型足夠準(zhǔn)確,同時還需要驗證用于創(chuàng)建測試計劃和測試仿真的環(huán)境和使用模型。
明確測試的目標(biāo)一個強大的安全驗證計劃必須至少解決以下類型的缺陷,這些缺陷涵蓋了系統(tǒng)、環(huán)境和系統(tǒng)使用方面的潛在故障:? 需求缺陷:系統(tǒng)需要做錯誤的事情(缺陷),不需要做正確的事情(間隙),或者具有ODD描述間隙。? 設(shè)計缺陷:系統(tǒng)未能滿足其安全要求(例如,由于實現(xiàn)缺陷而導(dǎo)致),或未能適當(dāng)?shù)仨憫?yīng)對定義的ODD的違規(guī)行為。? 測試計劃缺陷:測試計劃未能測試要求或設(shè)計中的特殊情況,或者有其他缺陷。? 魯棒性問題:無效輸入或受損系統(tǒng)狀態(tài)導(dǎo)致不安全的系統(tǒng)行為或故障(例如,傳感器噪聲、組件故障、軟件缺陷),或由于外部力量導(dǎo)致超出ODD的情況。HAV驗證面臨的挑戰(zhàn)之一是不完整的需求和隱含的需求和設(shè)計表示。非確定性的系統(tǒng)行為進一步加大了問題的復(fù)雜性。這些挑戰(zhàn)將必然影響到系統(tǒng)測試的方法和目標(biāo)。(該前期研究側(cè)重于識別驗證自主性、運行時監(jiān)視方法和失效操作方法方面的挑戰(zhàn)。我們在這里構(gòu)建在之前的研究基礎(chǔ)上,討論了驗證方法的各個方面。)一般來說,將傳統(tǒng)的功能安全方法應(yīng)用于至少某些HAV功能時遇到的困難,促使我們考慮測試在整體安全驗證過程中的不同可能角色,以及如何處理需求不完整的問題。
HAV的需求將不完整
HAV驗證面臨的主要挑戰(zhàn)之一是,在可以測量行為正確性并為測試提供通過/不通過標(biāo)準(zhǔn)的情況下,需要開發(fā)一套完整的行為需求。例如,雖然一些工作正在進行中,以記錄車輛的行為和場景,但并沒有包含交通法規(guī)的完整、公開的機器可讀性版本,其中還包括了異常情況的處理規(guī)則(例如,當(dāng)以及如何穿越中央分隔線以避開道路障礙物?)。在本文中,“需求”一詞主要是指系統(tǒng)級的行為需求,盡管這些概念也可以以其他方式應(yīng)用。
需求間隙是進行道路測試數(shù)據(jù)收集操作的主要動機,這種操作有時被寬泛地稱為“車輛測試”。從道路測試數(shù)據(jù)中推導(dǎo)系統(tǒng)需求的一般策略也會影響測試計劃的完整性,因為將會有與系統(tǒng)行為需求(例如未知的和因此缺失的行為場景)對應(yīng)的測試間隙。
重要的是要指出,嚴(yán)格來說,使用道路數(shù)據(jù)作為基礎(chǔ)來訓(xùn)練機器學(xué)習(xí)的系統(tǒng)從未真正確定過需求。相反,訓(xùn)練數(shù)據(jù)集是某種代理,用于類似需求的內(nèi)容。在其他情況下,分析道路數(shù)據(jù)可能被用于構(gòu)建某種明確陳述的需求級別。成功驗證HAV需要測試計劃捕獲和執(zhí)行所需的行為,即使這些行為是隱含地表達(dá)的。無論形式如何,這些需求或需求代理對于許多初始HAV部署來說可能是不完整的。
作為調(diào)試的車輛測試可能不夠有效
關(guān)于系統(tǒng)級測試的一種普遍觀點是,它是發(fā)現(xiàn)軟件缺陷(“錯誤”)并將其排除的一種方法。然而,車輛級別測試存在一個嚴(yán)峻的退化問題。一旦發(fā)現(xiàn)了涉及典型駕駛場景的易發(fā)現(xiàn)缺陷,要找到其他缺陷就會變得難上加難。特別是對于需要非常精確指定初始條件、涉及時間競爭條件或涉及計算運行時故障恢復(fù)的缺陷,這一點尤為明顯,這些缺陷難以使用普通車輛接口誘發(fā)。在機器人領(lǐng)域,這個問題更嚴(yán)重,我們觀察到微小的光照和幾何變化可以觸發(fā)不可重現(xiàn)的錯誤。通常情況下,可以預(yù)期許多這樣的微妙錯誤在任何合理數(shù)量的車輛測試期間都會逃脫檢測和診斷,并且在高度暴露的應(yīng)用中,例如汽車系統(tǒng),它們肯定會在實際場地中出現(xiàn)。
除了效率問題之外,任何將車輛測試作為缺陷排除的主要機制的項目在其安全世界觀中存在根本問題。測試可以證明錯誤的存在,但不能證明錯誤的不存在。此外,當(dāng)測試發(fā)現(xiàn)的所有缺陷都已經(jīng)修復(fù)時,剩下的缺陷是測試程序無法發(fā)現(xiàn)的缺陷。因此,即使車輛級別測試完全找不到問題,也不意味著車輛的軟件一定是安全的。這種推理方式實際上是得出結(jié)論:僅通過車輛級別測試來證明系統(tǒng)安全是不可行的方法。
車輛測試作為需求發(fā)現(xiàn)
一些形式的“車輛測試”實際上旨在發(fā)現(xiàn)需求。HAV開發(fā)工作中仍然在不斷成熟的領(lǐng)域,可能存在需求間隙的示例包括:
? 檢測和規(guī)避新的道路危險? 處理需要違反正常交通規(guī)則的特殊情況? 不尋常的車輛配置、表面和油漆作業(yè)? 誤導(dǎo)性但格式良好的地圖數(shù)據(jù)? 新穎的道路標(biāo)志和特定于微觀位置或事件的交通管理機制? 不尋常的道路標(biāo)記和破壞? 由于HAV行為而引起的交通緊急情況? 惡意車輛行為(人類;受損的HAV)
雖然高度自動化車輛(HAV)的設(shè)計者應(yīng)該設(shè)計以滿足已知需求,但在可預(yù)見的未來,現(xiàn)實世界中將不可避免地出現(xiàn)不斷的新型操作“意外”。相對于完全的第5級自動化,選擇L4級自動化的主要理由在于HAV不必處理所有可能的情況。實際上,第4級自動化的一個重要可行性優(yōu)勢在于,在超出其操作設(shè)計域(ODD)時,只要其故障響應(yīng)是安全的,它被允許展現(xiàn)出一種優(yōu)雅的故障響應(yīng)。事實上,如果L5級自動化在長期內(nèi)仍然是一個難以實現(xiàn)的目標(biāo),也就不足為奇了。在所有可能的操作條件和場景中,L4級自動化可能逐漸接近但永遠(yuǎn)不會真正達(dá)到完全自動化。
需要指出的是,L4級自動化并不意味著HAV的安全保障論就不必考慮所有可能的情況,包括ODD違規(guī)和新型情況。一般的ODD概念似乎假設(shè)以下兩種情況之一必須成立:(1)由于高度可靠的ODD約束(例如,在北美公共道路上通常不需要對袋鼠的道路危險行為進行強壯的預(yù)測),HAV不會遇到它無法處理的情況,或者(2)HAV將可靠地檢測到它處于ODD之外的情況并將車輛帶到安全狀態(tài)(例如,不適用于袋鼠道路危險的車輛可能被地理圍欄隔離在野生動物園和澳大利亞大陸之外)。實際上,ODD可能會在不被察覺的情況下被違反,這是由于對ODD范圍的完全理解存在差距(例如,設(shè)計者根本沒有考慮到袋鼠),或者驗證計劃中存在漏洞,漏掉了測試相關(guān)的ODD約束。
在道路操作中的適當(dāng)應(yīng)用是發(fā)現(xiàn)需求差距。遇到一些意外情況將導(dǎo)致需求更新,而其他情況則可能導(dǎo)致ODD參數(shù)或ODD違規(guī)檢測需求的修改。在HAV首次遇到這種ODD“意外”時,HAV必須是可以接受的安全的。實現(xiàn)這一點是有問題的,因為按定義,這種情況是意外的,因此不是任何測試計劃的設(shè)計部分。
由于沒有完美的驗證方法,一些設(shè)計缺陷可能會逃脫并通過道路測試或甚至在投入使用的車輛中被發(fā)現(xiàn)。然而,這應(yīng)該是系統(tǒng)中發(fā)現(xiàn)的缺陷總數(shù)的非常小的一部分,而且即使這些缺陷導(dǎo)致系統(tǒng)安全關(guān)機或其他可用性喪失,也應(yīng)該導(dǎo)致安全行為。如果在開發(fā)周期中有過多的缺陷逃脫并且直到道路測試時才被發(fā)現(xiàn),那就表明需求、測試計劃或驗證方法的某些元素存在系統(tǒng)性問題。與任何安全關(guān)鍵設(shè)計過程一樣,缺陷逃脫到生產(chǎn)系統(tǒng)中應(yīng)該引發(fā)重大的響應(yīng),以糾正任何與導(dǎo)致這種情況的安全過程有關(guān)的問題。
區(qū)分需求發(fā)現(xiàn)和設(shè)計測試
關(guān)于道路測試的作用,一個關(guān)鍵的觀點是,在尋找缺失需求方面累積車輛里程實際上并不是傳統(tǒng)意義上的“車輛測試”。它是一個需求收集和驗證的過程。另一方面,無論是道路數(shù)據(jù)還是仿真、合成數(shù)據(jù)和記錄數(shù)據(jù)的組合是測試特定HAV設(shè)計的主要手段,更多地取決于設(shè)計團隊的選擇。只要設(shè)計經(jīng)過了充分完整的需求驗證,道路測試就不需要(實際上也不應(yīng)該)是唯一的測試方式。
因此,減少HAV驗證的時間和費用的一種方法是將(1)用于需求收集的道路測試與(2)用于設(shè)計和實施驗證的測試分開。需要明確的是,為了尋找需要通過系統(tǒng)安全需求減輕的罕見但危險事件,需要進行數(shù)十億英里的道路經(jīng)驗是不可避免的。但這并不意味著每次設(shè)計更改都需要重新進行那些數(shù)十億英里的測試,至少如果采取比單純的系統(tǒng)級測試更為復(fù)雜的方法的話。
車輛測試來減輕殘余風(fēng)險
我們可以概括一下這樣一個觀點:道路測試應(yīng)該主要強調(diào)需求驗證,而較低級別的仿真和測試應(yīng)該強調(diào)設(shè)計和實施的驗證。一般來說,任何級別的仿真(包括車輛測試的“仿真”方面)都有一定程度的保真度,正如前面所討論的。這意味著它在某些方面也是“錯誤”的——正如所有模型都是錯誤的——這是由于其簡化和假設(shè)。
通過集中測試計劃,可以提高測試效率,檢查較低保真度級別的仿真的假設(shè)和簡化。與此同時,將盡可能多的仿真推向最低保真度的實際水平將減少仿真成本。例如,簡單的編碼缺陷應(yīng)該在子系統(tǒng)仿真(甚至是傳統(tǒng)軟件單元測試和同行評審之前的預(yù)仿真)中被發(fā)現(xiàn)。另一方面,如果罕見事件的需求缺口是由于無法預(yù)見的因素導(dǎo)致的,那么最好在道路測試中發(fā)現(xiàn)它們。這導(dǎo)致了一種基于減輕每個仿真保真度級別的殘余風(fēng)險的方法,如下一節(jié)所討論的。
分層殘余風(fēng)險方法
由于在短期內(nèi)高度自動駕駛車輛(HAVs)的設(shè)計和需求信息通常不太可能是人類可解釋的,因此必須使用除傳統(tǒng)V模型之外的某種方法進行驗證。為此,我們需要至少有一組(可能不完整的)安全需求。然后,我們必須找到一種方法,將一些組合的道路測試、封閉測試和仿真結(jié)果追溯到這些安全需求。
根據(jù)安全需求進行驗證
在最高層面上,我們需要一些類型的系統(tǒng)需求,以確定測試實際上是否通過或失敗。如果功能需求沒有完全明確,那么我們需要其他東西。好消息是,可能不需要最佳性能來提供安全性。相反,更簡單的需求可能足以定義安全操作。
例如,我們發(fā)現(xiàn),基于安全范圍禁止的一組不安全行為列表可能對某些自動駕駛車輛行為足夠。在這種情況下,測試可以追溯到明確規(guī)定的安全需求,即使功能需求本身是不透明或未經(jīng)記錄的。指定安全范圍的一種方法是使用分配給不同安全檢查功能塊的運行時不變量。作為一個簡單的例子,車道保持的安全范圍可以是車輛保持在其車道邊界內(nèi)外加上一定的安全邊距。與根據(jù)道路幾何和交通優(yōu)化車輛車道位置的復(fù)雜算法的完美實現(xiàn)相比,這種方法更簡單,更容易用作測試成功的判斷標(biāo)準(zhǔn)。
盡管將測試追溯到明確定義的安全需求可能會有所幫助,但我們通過經(jīng)驗發(fā)現(xiàn),安全需求通常難以理解,甚至在有用的詳細(xì)級別上都沒有記錄。雖然對于不幸事件不應(yīng)該發(fā)生的模糊概念是一個起點,但還必須有一種具體和具體的方法來確定一個測試是否表明系統(tǒng)是安全的。實際上,我們發(fā)現(xiàn),一組部分的運行時不變量,它們指定了一種安全和不安全的系統(tǒng)狀態(tài)空間包絡(luò)的組合,可以根據(jù)測試和仿真結(jié)果不斷改進,采取持續(xù)改進的方法。換句話說,解決缺失安全需求的問題的一種方法是從一組簡單的規(guī)則開始,并隨著測試違反這些簡單規(guī)則的結(jié)果而隨時間推移地加以完善。假陽性和假陰性的規(guī)則違反可以驅(qū)動規(guī)則集的細(xì)化。一般來說,如果從安全操作包絡(luò)的安全性的角度來看,這種進化在開始時以對安全操作包絡(luò)的過度近似(增加高假陽性率)為特點,并且當(dāng)分析顯示這樣做是提高包絡(luò)允許度的安全方式時,逐漸增加額外的包絡(luò)區(qū)域(和伴隨的測試成功標(biāo)準(zhǔn)細(xì)節(jié))。
如果HAV設(shè)計團隊試圖通過基于機器學(xué)習(xí)的方法確定安全需求,那么對于人類安全論審查者來說,重要的是以一種可解釋的方式表達(dá)結(jié)果。然而,目前還不清楚如何做到這一點。在這一點上,我們建議使用更傳統(tǒng)的工程方法來定義安全需求,以避免ML-based功能陷入不可解釋性的同樣問題。
基于殘余風(fēng)險進行驗證
盡管安全邊界方法可以簡化用于通過/不通過標(biāo)準(zhǔn)的需求模型的復(fù)雜性,但自動駕駛車輛(HAV)的測試仍需要運行大量場景,以獲得合理的覆蓋率。理想情況下,盡可能多的測試應(yīng)該使用成本相對較低、保真度較低的仿真進行。然后,該方法應(yīng)該增加保真度,不僅僅是為了無差別的“真實性”,而是為了減少低保真度仿真所做簡化帶來的殘余風(fēng)險。
管理殘余風(fēng)險
高保真度和低保真度仿真運行之間的重要關(guān)系不應(yīng)該是“合理性檢查”或統(tǒng)計抽樣,而應(yīng)該是強調(diào)驗證在低保真度級別所做的假設(shè)和簡化的正確性。換句話說,對于低保真度模型在某些方面“錯誤”的每個方面,較高保真度仿真(包括潛在的各種類型的物理車輛測試)應(yīng)該負(fù)擔(dān)減輕那個殘余安全驗證風(fēng)險的責(zé)任。
這種方法在模型驗證的重要方面與通常的觀念不同。較高保真度級別的仿真不僅用于驗證較低保真度模型的正確性,而且必須明確地設(shè)計為強調(diào)在仿真運行時已知存在的假設(shè)和簡化的檢查。較高保真度模型的主要目標(biāo)應(yīng)該是通過不僅檢查較低保真度仿真結(jié)果的準(zhǔn)確性,還要檢查較低保真度模型所做的假設(shè)在進行較高保真度仿真時是否被違反,從而減輕那個殘余風(fēng)險。舉個簡單的例子,如果一個簡化模型假設(shè)80%的雷達(dá)脈沖可以檢測到一個目標(biāo),那么較高保真度的模型或車輛測試應(yīng)該在只有75%的脈沖檢測到目標(biāo)時標(biāo)志一個故障,即使車輛在較高保真度模型中表現(xiàn)得很安全。80%檢測率的假設(shè)是低保真度仿真的一個殘余風(fēng)險,它做了這個假設(shè)。違反這個假設(shè)會使安全論無效,即使特定的測試場景碰巧幸免于不幸。
這種方法從根本上影響了仿真和測試活動的設(shè)計。例如,考慮一個探討視野中障礙物擺放的仿真。仿真以非常精確的分辨率在環(huán)境中安排障礙物,但在固定方向上使用了只是簡化的靜態(tài)位置的基本圖示行人對象。在改變障礙物擺放的同時進行數(shù)千次高保真度車輛測試,預(yù)計將在詳盡的仿真結(jié)果之上產(chǎn)生很低的邊際驗證效益,特別是如果仿真運用了將在HAV中部署的實際幾何處理代碼。因為在這個例子中,障礙物相對于車輛的擺放位置在仿真完成后不再是殘余風(fēng)險的主要來源。主要的殘余風(fēng)險集中在行人身上。低保真度仿真假設(shè)圖示人,從而忽略了攜帶大型物體的人、穿著顯著扭曲傳感器信號的服裝的人、與車輛傳感器的不同旋轉(zhuǎn)位置等情況。
同樣,任何提高仿真能力的改進都不應(yīng)該僅僅追求使仿真在每個可能的維度上更高的保真度。例如,在仿真資源中,將道路障礙物擺放建模到納米級別而不是毫米級別不太可能是一種普遍有效的使用。相反,仿真保真度的改進應(yīng)該是為了用仿真替代必需的系統(tǒng)級別測試(例如,在前述基本圖示例子中增加了表面紋理功能以及更多種類的幾何形狀和方向)。
這并不意味著仿真模型的驗證和驗證應(yīng)該被忽視。相反,重點在于,即使在特定抽象級別上驗證的模型完全有效,也會存在殘余風(fēng)險。這部分風(fēng)險是由于可能存在不完整的測試活動,即未能完全減輕從較低保真度仿真繼承的風(fēng)險,或者未能充分覆蓋分配給相應(yīng)保真度級別的區(qū)域。另一部分風(fēng)險是由于在特定抽象級別上故意排除的安全考慮,這對應(yīng)于向上傳遞給更高保真度級別的風(fēng)險。
因此,使用各種仿真保真度的運行的傳統(tǒng)方法在HAV中仍然是有意義的。藝術(shù)在于確保在低保真度測試中的簡化是得到明確處理和減輕的驗證風(fēng)險。
通過將測試偏向困難情景的加速評估方法與殘余風(fēng)險方法是互補的。強調(diào)困難情景旨在從測試集中剔除多余的正常路徑測試,同時仍然覆蓋非正常行為、邊緣案例和復(fù)雜環(huán)境交互。另一方面,殘余風(fēng)險緩解方法解決了由低保真度層次的仿真和測試計劃中所做的簡化和未經(jīng)檢查假設(shè)帶來的風(fēng)險潛在問題。
殘余風(fēng)險的一個例子
表1顯示了HAV測試和仿真計劃中應(yīng)該考慮的殘余風(fēng)險的簡化示例。表格頂部的殘余風(fēng)險傾向于需求缺口(意外情景和意外環(huán)境條件)。相比之下,其他殘余風(fēng)險傾向于速度/保真度仿真權(quán)衡(例如,傳感器數(shù)據(jù)質(zhì)量)驅(qū)動的簡化和潛在的設(shè)計問題(例如,子系統(tǒng)相互作用)在較低級別。
驗證活動 | 殘余風(fēng)險(對有效性的威脅) |
預(yù)部署道路測試 | 意外場景,環(huán)境 |
封閉場地測試 | 同上,加上:意外的人類駕駛員行為,惡化的基礎(chǔ)設(shè)施,道路危險 |
完整車輛和環(huán)境仿真 | 同上,加上:仿真的不準(zhǔn)確性,仿真的簡化(例如,道路摩擦力,傳感器噪聲,執(zhí)行器噪聲) |
?簡化車輛和環(huán)境仿真 | 同上,加上:不準(zhǔn)確的車輛動力學(xué),簡化的傳感器數(shù)據(jù)質(zhì)量(紋理、反射、陰影),簡化的執(zhí)行器效應(yīng)(控制回路時間常數(shù)) |
表格1. 假設(shè)的驗證活動和對有效性的威脅。
回顧之前的障礙物檢測示例,這意味著更高保真度級別,比如物理車輛測試,不應(yīng)該主要關(guān)注障礙物的不同大小和擺放位置。相反,它們應(yīng)該關(guān)注諸如物體和傳感器上的污垢等其他在僅依賴軟件仿真工具無法處理的方面。換句話說,車輛測試主要應(yīng)該集中精力不是用于復(fù)制仿真結(jié)果,而是挑戰(zhàn)仿真方法的任何已知弱點。具體情況會有所不同。關(guān)鍵是所有仿真工具都有某種限制,需要進一步的驗證工作。
對于表格1中所示的例子,封閉場地測試不應(yīng)該主要關(guān)注意外的人類駕駛員行為、惡化的基礎(chǔ)設(shè)施或道路危險,因為減輕這些威脅是進行預(yù)部署道路測試的主要原因。預(yù)期的行為、道路危險等應(yīng)該通過測試和仿真來處理。無法解決的意外問題無法在測試計劃中明確包含,因為意外問題定義上不是測試計劃中可以明確包含的內(nèi)容。
在每個驗證級別中,主要的重點應(yīng)該放在從下一個更低級別繼承的殘余風(fēng)險上,尤其是在修改了系統(tǒng)以確保系統(tǒng)仍然安全的情況下重新運行現(xiàn)有的仿真測試套件。通過測試來詳盡地復(fù)制較低保真度仿真和測試的結(jié)果是低效的,而且如果隨機抽樣未能覆蓋殘余風(fēng)險,這樣做最多會產(chǎn)生一種虛假的安全感。
提高可觀察性
在進行了徹底的仿真和車輛測試計劃之后,必須提供足夠的可控性和可觀察性,以產(chǎn)生可信的安全驗證結(jié)果。
可控性和可觀察性
可控性是測試員控制被測試系統(tǒng)的初始狀態(tài)和工作負(fù)載的能力??捎^察性是測試員觀察系統(tǒng)狀態(tài)以確定測試是否通過的能力。
控制測試場景以引發(fā)特定自主系統(tǒng)行為是困難的。這是由于隨機方法的使用(例如,隨機路徑規(guī)劃器),對初始條件的敏感性(例如,在測試環(huán)境內(nèi)完全可重復(fù)的傳感器對準(zhǔn)),執(zhí)行器輸出的變異性(例如,執(zhí)行器與環(huán)境的非預(yù)期交互的變化)和計算時間的變化。
提高可控性的一個有用方法是使用可以避免物理世界隨機性和約束的仿真。除此之外,可以提供一個系統(tǒng)測試接口,將系統(tǒng)強制置于測試的初始狀態(tài)。例如,如果路徑規(guī)劃器的內(nèi)部偽隨機數(shù)生成器可以設(shè)置為預(yù)定的種子值,那么它就可以以可重復(fù)的方式進行測試。作為實際問題,確定性測試要求HAV軟件有意地設(shè)計為提供確定性測試能力。在構(gòu)建軟件后,難以消除軟件中的非確定性來源。
可觀察性可能是一個更為困難的問題。例如,在車輛級別的障礙物測試中,車輛要么在通過障礙物時保持足夠的間隙,要么不保持。但是,即使系統(tǒng)通過“通過”測試,避免與障礙物碰撞可能僅僅是因為系統(tǒng)在避免一個它甚至不知道存在的障礙物時運氣好。系統(tǒng)可能會在下一次測試運行中撞上障礙物,或者可能在2000次測試運行后撞上它。這種缺乏可觀察性是機器可讀性問題的一個方面,該問題認(rèn)識到人類理解機器系統(tǒng)的設(shè)計、操作和“意圖”的困難。(機器與人類駕駛員的交互作用中機器可讀性的額外作用是重要的,但超出了本文的范圍。)
雖然可以說系統(tǒng)將不太可能因為愚蠢的運氣而重復(fù)通過測試,但涉及到的測試參數(shù)數(shù)量龐大,這種論斷中的“重復(fù)”部分會顯得非常昂貴。而且,無論運行多少次測試,要在生命安全保障級別的測試中獲得極高的統(tǒng)計顯著性是困難的。(即使一個系統(tǒng)在檢測到人行橫道上的兒童時避免發(fā)生事故的置信水平為99.99%,如果可能導(dǎo)致1萬個兒童中有一個被撞到,這似乎也是有問題的。)因此,總會存在這樣一個殘余風(fēng)險,即某些組合的場景元素之間由于幸運連勝而通過測試,而不是由于安全設(shè)計。
軟件測試點
與其僅依賴系統(tǒng)級別行為和簡單的重復(fù)來確定測試是否通過,更高效的測試方法是在系統(tǒng)中插入軟件測試點以提高可觀察性。例如,如果傳感器融合的可靠性是由于仿真限制而導(dǎo)致的殘余風(fēng)險,那么封閉場地車輛仿真的相關(guān)測試點將是監(jiān)控傳感器融合結(jié)果的計算確定性級別。這將提供關(guān)于測試障礙物是否以預(yù)定的誤差邊界避免而不僅僅是運氣的信息。(軟件測試點可能干擾系統(tǒng)測試是因為測試點被設(shè)計為系統(tǒng)的永久組成部分。這將進一步促進在部署系統(tǒng)中進行數(shù)據(jù)收集。)
軟件測試點還可以方便在車隊部署期間監(jiān)控安全論點假設(shè)的違反情況。先前討論的80%的檢測率假設(shè)的例子不僅可以在測試期間監(jiān)控,而且還可以在全面部署車輛上監(jiān)控,以便檢測假設(shè)違反是否已經(jīng)傳遞到了實際系統(tǒng)。
通過正確的原因來進行測試
當(dāng)人類參加駕駛測試時,測試考官對駕駛員在方向盤后的行為有一個相當(dāng)準(zhǔn)確(或者至少是有用的)的心理模型。如果駕駛員在變道時沒有與后視鏡進行眼神交流或者未在目標(biāo)車道內(nèi)檢查其他車輛就變道,考官知道駕駛員之所以沒有發(fā)生碰撞是因為僥幸而不是正確行為。但是對于高度自動化車輛(HAV),這種評估更加困難,因為不清楚機器表現(xiàn)安全行為與僥幸避免危險行為之間的“線索”是什么。特別是如果要求和設(shè)計無法通過基于V形安全過程的追蹤得知,這一問題就更為復(fù)雜。
如果HAV的安全性部分基于類似駕駛測試的事件,那么考官必須知道HAV不僅要以正確的方式行為,而且必須有正確的原因。即使沒有正式的駕駛測試,通過從明確的系統(tǒng)信息中合理推斷行為的因果關(guān)系可以降低測試成本,而不是采用粗糙的統(tǒng)計方法。HAV自報顯著區(qū)域、物體邊界框等功能并不是一個新的想法。然而,如果能夠在安全論證中明確包含這些功能,可以在正確的情況下降低測試成本。這可能會激勵進一步的工作,以驗證自我報告和可解釋性機制的可靠性。
將情景與行為相結(jié)合的一種方法是讓HAV自行報告它認(rèn)為自己所處的情境,或者認(rèn)為自己所處情境中的各種元素。例如,車輛在可以變道時,不僅僅是進行車道變更,它還可以報告:“我想要變道……我正在檢查下一個車道,有一輛車在那里,但是它離我足夠遠(yuǎn),我可以順利變道……我開始變道……我繼續(xù)監(jiān)視車道確保它仍然是空的……后面的車在加速縮小間隙……”等等。一些HAV架構(gòu)可能已經(jīng)提供了這種程度的可觀察性。問題在于這種信息在驗證策略中是否被正式使用。而且,許多流行的方法(例如端到端深度學(xué)習(xí))明確避免了架構(gòu)的模塊化,這樣做可能會降低可觀察性。他們這樣做的目的是為了實現(xiàn)更高的性能、更緊密的實現(xiàn)和更少的開發(fā)工作。缺乏可觀察性可能會在驗證工作或系統(tǒng)部署風(fēng)險方面付出高昂的代價。
一個有效的駕駛測試不僅應(yīng)該要求正確的行為,還應(yīng)該要求HAV正確地闡述它的行為原因。這只是一個好的開始,但我們必須質(zhì)疑機器對其行為解釋的真實性。然而,我們認(rèn)為決定是否相信明確的解釋相比通過行為觀察來推斷(然后相信)不透明的隱式解釋更容易解決。無論哪種方式,都必須決定車輛在未來的情況下是否會采取正確的行動,而這些情況與培訓(xùn)和測試數(shù)據(jù)集并不完全相匹配。明確解釋的優(yōu)勢在于,如果需要與測試計劃的敘述相匹配,那么該機制的有效性是可以被證偽的。在設(shè)計安全關(guān)鍵系統(tǒng)時,我們更喜歡明確、可驗證、簡單的模式,即使它們的性能可能較差,而不是那些高度優(yōu)化但不透明的模式。我們有理由相信,考慮到試圖部署難以驗證的系統(tǒng)可能帶來的后果,這種趨勢在HAV中也會持續(xù)存在。
設(shè)計這樣一個系統(tǒng)將需要引入或確定可觀察性以進行驗證。這可以通過將現(xiàn)有數(shù)據(jù)轉(zhuǎn)換為人類可解釋的形式的工具,將測試點添加到系統(tǒng)架構(gòu)中,或者重新設(shè)計系統(tǒng)以有意地創(chuàng)建新形式的人類可解釋數(shù)據(jù)來實現(xiàn)。(圖1)
圖1:系統(tǒng)驗證應(yīng)確保系統(tǒng)出于正確的原因做出正確的事情
對于機器學(xué)習(xí)系統(tǒng),這種方法提出了一種相對不尋常的設(shè)計策略。與其讓機器學(xué)習(xí)系統(tǒng)學(xué)習(xí)實現(xiàn)某個結(jié)果所需的特征集,不如讓它同時實現(xiàn)兩個并行目標(biāo):(1)展現(xiàn)正確的行為,以及(2)展現(xiàn)與其行為相匹配的一組敘述描述或其他解釋。實現(xiàn)這一目標(biāo)的方法之一是使用環(huán)境和使用場景的模型來定義必須學(xué)習(xí)的機器學(xué)習(xí)輸出集合。雖然這可能被視為額外的設(shè)計負(fù)擔(dān)和開銷,但這可能是確保車輛是否足夠安全以投入使用的代價。
為了避免行為與敘述不匹配,一個可能的方法是將機器學(xué)習(xí)系統(tǒng)分為兩個不相交的階段進行操作:首先創(chuàng)建敘述,然后使用敘述作為其行為的輸入,如圖1所示。第一階段可以建立在已有的關(guān)于場景描述和層次分類的工作上。系統(tǒng)的執(zhí)行應(yīng)該對敘述做出響應(yīng),第二階段應(yīng)該完全依賴于第一階段的輸出。這種依賴性可以減輕生成與系統(tǒng)行為策略不匹配的并行敘述的風(fēng)險。
應(yīng)對不確定性
已知和未知
即使是經(jīng)過驗證并且表面上沒有缺陷的系統(tǒng),由于對系統(tǒng)及其需求了解不完全,仍然存在由此產(chǎn)生的問題的剩余風(fēng)險。這些問題包括但不限于以下幾種潛在類型的問題:
- 未在適當(dāng)驗證階段考慮的新出現(xiàn)的系統(tǒng)屬性和相互作用。在安全性依賴于隱含獨立性假設(shè)的區(qū)域中,未預(yù)料到的相關(guān)故障。發(fā)生得太少以至于無法通過部署前道路測試進行診斷的情景和環(huán)境異常。對未緩解危險的到達(dá)率存在不確定性,而這些危險被假定為極為罕見。在ML組件中激活不明缺陷的系統(tǒng)輸入。
當(dāng)然,上述未列出且至少在某些HAV驗證計劃中沒有包含的其他類型的缺陷可能存在。這就是那些可能危及安全性并導(dǎo)致其他系統(tǒng)故障的“未知未知”。處理未知缺陷
即使采用安全邊界等方法,最終仍然無法完全消除來自未知類型缺陷的剩余風(fēng)險。然而,可以通過監(jiān)控意外故障的到來來增加對剩余風(fēng)險足夠低的信心。必須認(rèn)識到未知問題是一種必須在車隊的整個生命周期中進行監(jiān)視和必要時進行緩解的剩余風(fēng)險。擴展至包括未知未知的信心評估框架是一種方法,它可以提供一種管理剩余風(fēng)險的途徑。
每當(dāng)一個意外事件導(dǎo)致安全問題時,都應(yīng)該采取額外措施來處理由新發(fā)現(xiàn)的問題無效化的底層系統(tǒng)和安全論證假設(shè)(這符合現(xiàn)有的安全實踐)。必須對意外故障進行根本原因分析,以至少確定該問題是一個已知未知(在這種情況下,你現(xiàn)在更了解它了),還是一個未知未知(在這種情況下,你需要為你的驗證計劃和安全論證添加一個新的問題類別,以解決這個新的意外問題的來源)。
HAV成熟度
將“駕駛測試”作為HAV驗證的一部分具有相當(dāng)直觀的吸引力。然而,類似于將HAV帶出進行道路測試,就像進行人類駕駛測試一樣,這個類比并不足夠,因為人類駕駛測試實際上包含兩個關(guān)鍵元素。第一個元素是明顯的,明確要求駕駛員必須展示基本的駕駛知識和熟練技能,包括駕駛技能測試。
通過駕駛測試的第二個更微妙的部分是,駕駛員必須年滿16歲,根據(jù)地區(qū)的不同,這個年齡要求作為具有合理成熟判斷力的代理,可以處理特殊情況,并在遇到新的非結(jié)構(gòu)化情況時通常表現(xiàn)出合理的行為。在現(xiàn)實世界中,正確的車輛操作部分依賴于交通法規(guī)。然而,它也取決于警察是否能夠以熟練但主觀的方式判斷駕駛員在特定情況下是否表現(xiàn)出合理和負(fù)責(zé)任的行為(在混合人類/自動駕駛交通中,“與他人相處得好”是一種重要的HAV特性)。
雖然有可能(有人說是肯定的)HAV的行為可能比人類更安全,但如何衡量HAV的“成熟度”,以確保實現(xiàn)這一理想的結(jié)果,目前仍然是一個未解之謎。
衡量HAV的成熟度的一種方法是部署車輛并觀察它們的表現(xiàn)。這就是支持部署SAE Level 3自動駕駛技術(shù)的一個論點,該技術(shù)實際上使用了一個成年監(jiān)護人的角色,在學(xué)習(xí)許可證操作期間,監(jiān)視初學(xué)駕駛員。然而,人們擔(dān)心,在長時間曝露下,由于駕駛員退出,駕駛員監(jiān)督可能會變得無效,尤其是當(dāng)自動化發(fā)生罕見故障時。
我們提出了兩種不同的方法,用于評估HAV的成熟度,超越了開發(fā)者遵守傳統(tǒng)安全關(guān)鍵軟件工程原則。第一種方法是確保HAV以正確的原因通過詳細(xì)的技術(shù)駕駛技能測試,并且第二種方法是監(jiān)測在實際應(yīng)用中HAV驗證的假設(shè)和剩余風(fēng)險是否持續(xù)有效。換句話說,如果車輛能夠以對人類有意義的方式解釋其行為,并且在實際操作中,其安全性論證假設(shè)是成立的,那么可以認(rèn)為系統(tǒng)設(shè)計是成熟的。
HAV試用期:監(jiān)控假設(shè)
任何負(fù)責(zé)任的HAV部署決策都不能簡單地接受“我們修復(fù)了所有我們找到的錯誤,所以我們肯定是完美的”這種說法,因為這從來不是現(xiàn)實的反映。總是會有一個新的錯誤。相反,基于分階段驗證的安全論證至少應(yīng)該基于從每個驗證階段的缺陷逃逸率進行測量的數(shù)據(jù)。這表明,觀察性測試點應(yīng)該被保留,并在整個車隊部署過程中進行監(jiān)視。這樣做可以通過確保沒有使假設(shè)無效的車輛操作情況,來監(jiān)控系統(tǒng)設(shè)計的成熟度。如果通過運行時監(jiān)控檢測到大量假設(shè)違反,那么這可以為設(shè)計團隊提供對受損安全邊際的寶貴反饋。通過這種方式,即使沒有發(fā)生實際事故,也可以識別安全論證的問題。
以HAV道路測試為例,這是前面討論過的假設(shè)違反的另一個例子。顯然,并非所有的中斷都是相等的,特別是考慮到各個團隊可能會因為觸發(fā)中斷的誤報率不同而有所不同。
使用諸如正交缺陷分類(ODC)的方法可能會揭示,例如,某些中斷是由于應(yīng)該在子系統(tǒng)仿真中捕獲的問題引起的,而其他中斷則是由于在最高級別發(fā)現(xiàn)的需求或場景差距。雖然我們希望HAV開發(fā)團隊會對中斷進行一些分析,但是將缺陷映射回驗證計劃中的剩余風(fēng)險的系統(tǒng)性分析具有顯著的潛在好處,比如為安全論證和HAV的整體成熟度提供健康指示。
這種方法可以通過呈現(xiàn)每個驗證階段的風(fēng)險緩解目標(biāo)的一組經(jīng)過良好推理的數(shù)據(jù)來支持對自主驗證的外部評估。這些目標(biāo)可以與通過仿真、車輛測試和部署期間的相關(guān)可觀察性點測量的缺陷逃逸數(shù)據(jù)配對使用。所有這些都意味著“駕駛測試”實際上不是一個一次性事件,而是一個基于在系統(tǒng)的生命周期中收集和分析缺陷逃逸領(lǐng)域數(shù)據(jù)的持續(xù)“駕駛執(zhí)照”更新過程。
帶有剩余風(fēng)險部署
必須承認(rèn),本文討論的是在HAV中存在剩余風(fēng)險的情況下進行部署,尤其是在需求和設(shè)計驗證中可能存在的缺陷。這是與該領(lǐng)域和所部署技術(shù)固有的。在能夠提出剩余風(fēng)險可以下降到通常的安全性閾值以下的統(tǒng)計學(xué)依據(jù)之前,積累統(tǒng)計上具有辯護性的數(shù)據(jù)可能需要一段時間(例如,在每10的9次方或10的10次方操作小時中發(fā)生的災(zāi)難性車輛事故的數(shù)量)。鑒于當(dāng)前HAV市場和法規(guī)環(huán)境,似乎可能在收集到這樣的數(shù)據(jù)之前,就已經(jīng)開始大規(guī)模公開部署。
無論多么吸引人,部署HAV都必須以負(fù)責(zé)任的方式進行。特別是,不應(yīng)該盲目接受剩余風(fēng)險。相反,所有級別的剩余驗證風(fēng)險都應(yīng)該被明確理解,并且在部署過程中進行監(jiān)視。例如,一個可信的論據(jù),即特定類別的剩余風(fēng)險可能導(dǎo)致低后果、高生存率或極為罕見的事故,可能是確定其“可接受性”的合法動機,即使風(fēng)險的全部范圍不清楚。然而,任何這樣的論據(jù)應(yīng)該得到實地反饋數(shù)據(jù)的支持,以確定支持接受此類風(fēng)險的假設(shè)是否實際成立,最好不要等到嚴(yán)重?fù)p失事件積累起來。
部署時存在殘余風(fēng)險
重要的是要承認(rèn),本討論考慮的是部署具有殘余風(fēng)險的高度自動化車輛(HAVs),特別是在需求和設(shè)計驗證方面可能存在的差距。這是與該領(lǐng)域和正在部署的技術(shù)固有的。在能夠提供統(tǒng)計上可靠的數(shù)據(jù)以證明殘余風(fēng)險降低到通常的安全關(guān)鍵系統(tǒng)安全閾值之下(例如,每10^9或10^10操作小時內(nèi)發(fā)生一次災(zāi)難性車輛事故)之前,需要一段時間??紤]到當(dāng)前HAV市場和監(jiān)管環(huán)境,似乎公開部署將在收集到這樣的數(shù)據(jù)之前進行擴大。
無論高度自動化車輛的吸引力有多大,都必須以負(fù)責(zé)任的方式進行部署。特別是,不應(yīng)該盲目地接受殘余風(fēng)險。相反,殘余驗證風(fēng)險在各個層面上都應(yīng)該得到明確理解,并且在部署過程中進行監(jiān)測。例如,可靠的論據(jù),表明某種類別的殘余風(fēng)險可能導(dǎo)致后果輕微、高度可生存或極為罕見的事故,可能是確定其“可接受性”的合理動機,即使風(fēng)險的全部范圍不清楚。然而,任何這種論據(jù)都應(yīng)該得到實地反饋數(shù)據(jù)的支持,以確定支持接受此類風(fēng)險的假設(shè)是否真實,最好是在等待嚴(yán)重?fù)p失事件積累之前。
最終會涉及到倫理問題,例如,如果預(yù)期通過部署不完美的技術(shù)能夠節(jié)省生命,那么是否更好。特別是,安全專業(yè)人員面臨著一個實際選擇,即是否參與發(fā)布一個具有未知(并且在短期內(nèi)無法知道)但存在安全風(fēng)險的安全關(guān)鍵系統(tǒng),或者他們錯過了提高高度自動化車輛相對安全性的機會,而這些車輛必然會在有或無他們的幫助下進行部署。本文的目標(biāo)之一是提供一個在這些系統(tǒng)部署之前驗證這些系統(tǒng)的框架,以提高開發(fā)者識別和管理接受的風(fēng)險的能力。
結(jié)論
總結(jié)一下,我們描述了一種HAV驗證方法,包括以下幾個元素:
? 一個分階段的仿真和測試方法,強調(diào)通過測試來減輕前一階段殘余驗證風(fēng)險,同時利用了在測試和仿真中固有的速度與準(zhǔn)確度的可伸縮性。? 觀測點產(chǎn)生人類可解釋的數(shù)據(jù),既可以檢測低保真度仿真階段中的缺陷,又可以證明系統(tǒng)出于正確的原因正在做正確的事情。? 明確區(qū)分測試的各種角色,從檢查需求差距到檢查設(shè)計缺陷,將每種類型的測試與分階段驗證方法的相關(guān)部分相匹配。? 一種用于管理已識別風(fēng)險的運行時監(jiān)控方法,捕獲在部署系統(tǒng)中出現(xiàn)的假設(shè)違規(guī)和未知未知因素。
這種方法可以預(yù)期相對于蠻力測試活動而言,提高了驗證效果,因為它明確地將測試和仿真活動與正在減輕的風(fēng)險聯(lián)系起來。這反過來又使得可以集中精力在每個特定仿真和測試準(zhǔn)確度水平的缺陷檢測的“甜蜜點”上。該方法還可以預(yù)期提高測試效率,因為每個測試階段都可以集中精力在減輕從前一階段繼承的風(fēng)險上,而不會浪費資源重新審查低風(fēng)險結(jié)論或試圖處理屬于其他測試階段的范圍之外的風(fēng)險(其他驗證形式也很重要,比如對系統(tǒng)功能的適當(dāng)部分使用ISO 26262方法。)
我們認(rèn)識到,由于確定性地建立機器學(xué)習(xí)功能的安全性存在挑戰(zhàn),這里提出的方法將產(chǎn)生一個持續(xù)改進的過程,而不是完全確鑿的安全性證明。然而,該方法將強調(diào)出做了哪些假設(shè),以及哪些安全案例證據(jù)缺失。驗證該方法和系統(tǒng)的一種方式是創(chuàng)建一個按照目標(biāo)結(jié)構(gòu)化標(biāo)注組織的安全案例(例如,從開始),并包含明確陳述的假設(shè)以完成論證。每個假設(shè)都確定了一個測試或仿真技術(shù)的殘余風(fēng)險。由其他驗證方法檢查的假設(shè)形成安全論證鏈的一部分。在設(shè)計時無法驗證的假設(shè)是部署系統(tǒng)中非常重要的殘余風(fēng)險,特別適合進行運行時監(jiān)控。
在某個時刻,設(shè)計者將不得不決定一個負(fù)責(zé)任的部署計劃,該計劃可能涉及接受根據(jù)一組可辯護的技術(shù)和社會標(biāo)準(zhǔn)判斷為可接受的風(fēng)險。為了最小化無法減輕的殘余風(fēng)險,我們建議避免使用只能通過傳統(tǒng)安全方法驗證的自治架構(gòu)作為確保操作安全性的唯一手段。一個替代方案是使用可以根據(jù)ISO26262適當(dāng)評估的安全檢查器,比如安全包絡(luò)監(jiān)控器。
雖然確保所有殘余風(fēng)險都已知并減輕到可接受的水平總是更好的,但明顯的是,即使在安全論證中存在風(fēng)險不完全明了的地方,HAVs也將被部署。本文討論的方法提供了一個基于多個仿真和測試準(zhǔn)確度水平的初步安全論證的框架。它還為基于監(jiān)測假設(shè)違規(guī)和測試部署過程中的其他殘余驗證風(fēng)險的持續(xù)改進提供了依據(jù)。
我們的下一步是完善建立安全需求與測試和仿真計劃之間可追溯性的技術(shù),并將此方法應(yīng)用于大規(guī)模驗證活動。
(歡迎申請加入智能駕駛交流學(xué)習(xí)群,加小編微信號zhijiashexiaoming)