中國有句古話,眼觀六路,耳聽八方,敏銳的觀察和感知能力是人類智慧的基礎。傳統的攝像頭只有感知功能,并不能理解圖像所描述的人和事物。計算機視覺利用人工智能(AI)讓智能攝像頭等設備變得聰明,可以解釋和理解圖像中發(fā)生的事情。通過科技重新打造一個與人眼一樣強大的傳感器,為計算機執(zhí)行以往需要人類視覺才能進行的任務,開啟了廣泛而多樣的用例,因此計算機視覺正迅速成為物聯網獲取真實世界數據并處理數據的最重要方式之一。
從計算停車場的汽車數量,到監(jiān)控零售商店的客流量,或是找出生產線上的瑕疵品,智能攝像頭的計算機視覺功能正被應用于廣泛的商業(yè)與工業(yè)場景中。在家中,智能攝像頭可以告訴我們包裹何時己送達、小狗是否從后院溜了出去,或是嬰兒何時醒來等待呵護。
智能攝像頭技術在商用與消費市場的應用正呈現指數級增長。根據市場調研與戰(zhàn)略咨詢公司Yole Développement在2020年發(fā)布的《用于監(jiān)控與安全用途的攝像頭與計算》報告,全球僅用于監(jiān)控的攝像頭約有10億臺,預計到2024年,這一數字有望翻倍增長。
這項技術在安全性、異構計算、圖像處理與云服務等方面有了長足的進展,讓未來的計算機視覺產品能具備更勝以往的能力。
智能攝像頭的安全性是計算機視覺的首要考量
物聯網的安全性是科技行業(yè)的重中之重但又極具挑戰(zhàn)。確保所有物聯網設備不被惡意人士所利用至關重要,特別是當這些設備已經獲取并存儲了與人、地點及高價值資產有關的圖像數據。
未經授權訪問負責監(jiān)控工廠、醫(yī)院、學?;蚣彝サ闹悄軘z像頭的數據,不但嚴重侵犯了隱私權,也可能導致密謀犯罪、機密數據外泄等難以估量的傷害。智能攝像頭遭到破解的同時也會提供一個破口,讓惡意人士可以訪問網絡內諸如門禁、暖氣與照明控制等其它設備,甚至控制整個智能工廠。
我們需要能夠信任智能攝像頭來維護所有人的安全,而不是為隱私侵犯另辟新徑。Arm堅信物聯網安全的重要性,多年來在此領域持續(xù)開發(fā)和創(chuàng)新,通過包括適用于Cortex®-A與Cortex®-M的Arm TrustZone等產品組合令最終客戶可以放心部署從云到端的物聯網應用。
在未來,基于Armv9架構的智能攝像頭芯片,將通過Arm機密計算架構(Confidential Compute Architecture, CCA)進一步強化計算機視覺產品的安全性。
除此之外,Arm也持續(xù)推動安全性最佳實踐的共同標準,如PSA Certified與PARSEC等。這些標準旨在確保未來所有智能攝像頭都能具有內置安全性:從圖像傳感器首次進行場景錄像到存儲數據,無論數據是存儲在本機上或是利用先進的安全與數據加密技術存儲在云端。
終端AI驅動智能攝像頭的計算機視覺
圖像傳感器技術與邊緣AI的結合能讓智能攝像頭通過大量獲取計算機視覺的數據,進行日益復雜的推理。智能攝像頭內的新機器學習能力可以滿足多樣化的用例,例如探測人或動物、辨識特定物件,以及讀取車牌號碼。這些計算機視覺的應用都需要在終端設備運行機器學習(ML)算法,而不是把數據送到云端進行推論處理。分布式算力是數據時代的大趨勢,將計算能力移至距離數據更近的地方可以提高決策速度,降低帶寬成本并更好地維護數據安全。
例如,在繁忙的十字路口部署一臺智能攝像頭,通過計算機視覺可以確認一天中各時段等待紅燈的汽車數量與類型,再利用設備本身的ML功能來處理數據并進行推論,在不需要人為干預的情況下,智能攝像頭便可以自動調整它的時序,從而自動減少交通擁堵并限制排放的增加。
Arm針對AIoT和邊緣智能的投資體現在我們日益壯大的AI合作生態(tài)系統,Arm架構對矢量計算的支持,各種AI框架模型在Arm處理器上的優(yōu)化,以及Ethos機器學習加速器產品線的普及。Arm Ethos產品系列是具備高度可擴展性與高效的NPU,它通過多核心技術,可支持每秒從0.1到10 TOP。同時,Arm也積極尋求與第三方加速器的整合,使AI、多媒體處理更簡易高效地運行在Arm架構的芯片產品上。軟件在ML領域扮演極其重要的角色,通過Arm NN SDK與TensorFlow Lite for Microcontrollers(TFLM)開源框架,Arm持續(xù)不斷地支持開源社區(qū)和與其他生態(tài)伙伴的合作。
這些機器學習工作負載框架是基于現有的神經網絡以及高效的Arm Cortex-A CPU、Mali™ GPU、Ethos NPU與Arm Compute庫以及CMSIS-NN。
通過第二代可伸縮矢量擴展(SVE2),Armv9架構能提供簡單易用的向量計算(可以平行計算的個別數據組),支持強化的AI功能。如此一來,開發(fā)者不用重寫或重新編譯代碼,就能直接擴充硬件向量長度。在未來,矩陣乘法的擴展(強化ML的要素之一)將進一步推動AI的發(fā)展。
與云互連的智能攝像頭
云與邊緣計算也有助于加速智能攝像頭的采用。傳統的CCTV架構通過網絡錄像機(NVR)或數字錄像機(DVR)將攝像頭的數據存儲于本機。這種模式有許多的限制,包括需要龐大的存儲空間以及每臺NVR上有限的實體連接端口數量。
遷移到云原生的模式可大幅簡化智能攝像頭的部署:任何數量級的攝像頭都可以通過下載到設備的配置文檔進行配置與管理。這也是一種良性循環(huán):來自智能攝像頭的數據可以針對特定的用例來訓練存儲在云上的模型,從而使攝像頭更加智能,當攝像頭變得更智能,它們需要上傳的數據量就會越小。
云計算的使用也能結合來自多臺智能攝像頭的計算機視覺數據,通過AI傳感器融合實現流程自動化。以我們剛剛提到的部署在十字路口的智能攝像頭為例,云AI算法可以對來自多臺智能攝像頭的數據進行綜合分析,不斷地調整整個城市里的交通信號燈時序,進而保持交通暢通。
Arm支持從云到終端所需的連續(xù)處理能力:Cortex-M微控制器與Cortex-A處理器驅動智能攝像頭,Cortex-A處理器驅動邊緣網關,云與邊緣服務器則利用了Neoverse平臺的能力。
智能攝像頭的全新軟硬件需求
計算機視覺設備的計算需求每年持續(xù)增長,超高分辨率的視頻獲?。?K 60fps)與64位(Armv8-A)的處理能力是目前高端智能攝像頭產品的標準。
因此,下一代智能攝像頭的SoC必須采用異構架構,結合CPU、GPU、NPU與專屬的硬件,實現計算機視覺、圖像處理、視頻編解碼等功能。
存儲也是另一個關鍵的技術難點:盡管終端AI可以在攝像頭本地處理圖像,以降低存儲的需求,但許多用例仍需要將數據保存在某個地方(無論是設備本機上,或是邊緣服務器或云上)以確保安全。
為了確保能妥善存儲高分辨率的計算機視覺數據,H.265和AV1等新的視頻編解碼標準正在成為業(yè)界公認的標準。
新的應用場景驅動持續(xù)創(chuàng)新
總而言之,來自新應用場景的需求正在推動對于計算與圖像技術全面持續(xù)改善的需求。新一代的CCTV攝像頭等圖像獲取設備已是今非昔比,它們所產生的已不再是一張張難以辨識面容的粗糙圖像。計算機視覺的進步——效率更高、功能更強大的計算結合AI與ML的智能——讓智能攝像頭不僅只是圖像傳感器,而是可以像人類的眼睛一樣理解圖像,通過所見所聞了解認識世界。連接模擬與數字世界的橋梁正開啟我們過去曾覺得難以置信的全新應用場景。