引言
攝像頭傳統(tǒng)視覺(jué)技術(shù)在算法上相對(duì)容易實(shí)現(xiàn),因此已被現(xiàn)有大部分車廠用于輔助駕駛功能。但是隨著自動(dòng)駕駛技術(shù)的發(fā)展,基于深度學(xué)習(xí)的算法開始興起,本期小編就來(lái)說(shuō)說(shuō)深度視覺(jué)算法相關(guān)技術(shù)方面的資料,讓我們一起來(lái)學(xué)習(xí)一下吧。
01、深度學(xué)習(xí)概述
深度學(xué)習(xí)(DL,Deep Learning)是一類模式分析方法的統(tǒng)稱,屬于機(jī)器學(xué)習(xí)(ML,MachineLearning)領(lǐng)域中一個(gè)新的研究方向。深度學(xué)習(xí)通過(guò)學(xué)習(xí)樣本數(shù)據(jù)的內(nèi)在規(guī)律和表示層次,能夠讓機(jī)器像人一樣具有分析、學(xué)習(xí)能力,可識(shí)別文字、圖像和聲音等數(shù)據(jù),從而實(shí)現(xiàn)人工智能(AI,Artificial Intelligence)。
圖為:(人工智能、機(jī)器學(xué)習(xí)、深度學(xué)習(xí))關(guān)系圖
02、深度學(xué)習(xí)意義
很多小伙伴們可能了解汽車想要實(shí)現(xiàn)自動(dòng)駕駛,感知、決策與控制這三大系統(tǒng)是缺一不可的。其中,感知被我們放在了首位,因?yàn)檐囕v首先需要實(shí)時(shí)了解自車與現(xiàn)實(shí)世界三維變化的關(guān)系,即精準(zhǔn)了解自車與周圍人、車、障礙物及道路要素等位置關(guān)系和變化。深度學(xué)習(xí)算法有效提升了攝像頭、激光雷達(dá)等傳感器的“智能”水平,這很大程度上也決定了自動(dòng)駕駛汽車在復(fù)雜路況上的可靠度,因此深度學(xué)習(xí)的應(yīng)用便成為了關(guān)鍵所在。另外汽車的感知傳感器雖然有多種,但是攝像頭是唯一一個(gè)通過(guò)圖像可以感知現(xiàn)實(shí)世界的傳感器,通過(guò)深度學(xué)習(xí)可以快速提升圖像的識(shí)別能力,讓我們的行駛更加安全。
03、攝像頭傳統(tǒng)視覺(jué)算法與深度學(xué)習(xí)算法區(qū)別
有看過(guò)小編上期寫的關(guān)于攝像頭傳統(tǒng)視覺(jué)算法的小伙伴們就要問(wèn)了,既然傳統(tǒng)攝像頭視覺(jué)算法已經(jīng)可以使用,為什么還要研究深度學(xué)習(xí)算法呢?
因?yàn)閭鹘y(tǒng)視覺(jué)算法有著自身的一些瓶頸,無(wú)論單目攝像頭還是多目攝像頭,傳統(tǒng)視覺(jué)算法都是基于人為特征提取得到樣本特征庫(kù)去識(shí)別計(jì)算。當(dāng)自動(dòng)駕駛車輛行駛過(guò)程中如發(fā)現(xiàn)特征庫(kù)沒(méi)有該樣本或特征庫(kù)樣本不準(zhǔn)確,都會(huì)導(dǎo)致傳統(tǒng)視覺(jué)算法無(wú)法識(shí)別,另外傳統(tǒng)視覺(jué)算法還有在復(fù)雜場(chǎng)景下分割不佳等情況。因此,基于人為特征提取的傳統(tǒng)視覺(jué)算法具有性能瓶頸,無(wú)法完全滿足自動(dòng)駕駛的目標(biāo)檢測(cè)。
圖片來(lái)源:論文《DeepLearning vs. Traditional Computer Vision》
而攝像頭深度學(xué)習(xí)視覺(jué)算法的特征提取優(yōu)勢(shì)是基于神經(jīng)網(wǎng)絡(luò)算法,它模擬人的神經(jīng)網(wǎng)絡(luò),可將自動(dòng)駕駛上攝像頭輸入的圖像(甚至激光雷達(dá)的點(diǎn)云)等信息進(jìn)行語(yǔ)義分割,有效解決了傳統(tǒng)視覺(jué)算法對(duì)復(fù)雜的實(shí)際場(chǎng)景分割或樣本特征庫(kù)不佳的情況,讓圖像分類、語(yǔ)義分割、目標(biāo)檢測(cè)和同步定位與地圖構(gòu)建(SLAM)等任務(wù)上獲得更高的準(zhǔn)確度。
接下來(lái)為了便于大家理解,小編先講講深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)是什么?它是如何幫助攝像頭完成圖像識(shí)別等視覺(jué)計(jì)算的。它比傳統(tǒng)攝像頭的視覺(jué)算法又好在哪里?
04、深度學(xué)習(xí)之神經(jīng)網(wǎng)絡(luò)
深度學(xué)習(xí)大家看字面就很容易發(fā)現(xiàn)它是由“深度”+“學(xué)習(xí)”來(lái)完成的。“深度”就是模仿大腦的神經(jīng)元之間傳遞處理信息的模式,其模型結(jié)構(gòu)包括輸入層(inputlayer),隱藏層(Hiddenlayer)和輸出層(outputlayer),其中輸入層和輸出層一般只有1層,而隱藏層(或中間層)它往往有5層、6層,甚至更多層,多層隱層(中間層)節(jié)點(diǎn)被稱為深度學(xué)習(xí)里的“深度”;“學(xué)習(xí)”就是進(jìn)行“特征學(xué)習(xí)”(featurelearning)或“表示學(xué)習(xí)”(representationlearning),也就是說(shuō),通過(guò)逐層特征變換,將樣本在原空間的特征表示變換到一個(gè)新特征空間,利用大數(shù)據(jù)來(lái)學(xué)習(xí)和調(diào)優(yōu),建立起適量的神經(jīng)元計(jì)算節(jié)點(diǎn)和多層運(yùn)算層次結(jié)構(gòu),盡可能的逼近現(xiàn)實(shí)的關(guān)聯(lián)關(guān)系,從而使特征分類或預(yù)測(cè)更容易。
圖為:神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖
上面的內(nèi)容太抽象了,簡(jiǎn)單來(lái)講神經(jīng)網(wǎng)絡(luò)有三層:
輸入:輸入層每個(gè)神經(jīng)元對(duì)應(yīng)一個(gè)變量特征,輸入層的神經(jīng)元相當(dāng)于裝有數(shù)字的容器
輸出:輸出層,回歸問(wèn)題為一個(gè)神經(jīng)元,分類問(wèn)題為多個(gè)神經(jīng)元
參數(shù):網(wǎng)絡(luò)中所有的參數(shù),即中間層(或隱藏層)神經(jīng)元的權(quán)重和偏置,每一個(gè)神經(jīng)元代表該層神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到的特征
這里大家只需要記住神經(jīng)網(wǎng)絡(luò)不管規(guī)模的大小,都是由一個(gè)一個(gè)單神經(jīng)元網(wǎng)絡(luò)堆疊起來(lái)的。
不好理解也沒(méi)有關(guān)系,下面小編舉個(gè)例子來(lái)說(shuō)明一下吧。
假設(shè)我們要買房子,那么買房子我們所能承受的最終成交價(jià)格就是輸出層;
輸入層可能會(huì)有很多原始特征(即購(gòu)房因素,如房屋面積,房間個(gè)數(shù),附近學(xué)校個(gè)數(shù),學(xué)校教育質(zhì)量,公共交通,停車位);
中間層(或隱藏層)的神經(jīng)元就是我們可以學(xué)習(xí)到的特征,如家庭人數(shù),教育質(zhì)量,出行
我們搜集的輸入特征數(shù)據(jù)越多,就能得到一個(gè)更為精細(xì)的神經(jīng)網(wǎng)絡(luò)。而且隨著輸入層的原始特征神經(jīng)元個(gè)數(shù)的增多,中間層就能從原始特征中學(xué)到足夠多的、更為細(xì)致的不同含義組合特征,比如房屋面積和房間數(shù)量能表示容納家庭人數(shù),學(xué)校數(shù)量和學(xué)校質(zhì)量表示教育質(zhì)量。通過(guò)每個(gè)神經(jīng)元對(duì)應(yīng)的特征分類、統(tǒng)計(jì)和計(jì)算,最終得到我們想要輸出層“房?jī)r(jià)”。
那么對(duì)于攝像頭的深度學(xué)習(xí)來(lái)說(shuō),輸入層為攝像頭獲取的圖像,圖像對(duì)于攝像頭深度學(xué)習(xí)算法來(lái)說(shuō)可以看成是一堆數(shù)據(jù)流,那么這些數(shù)據(jù)流還可以分成更多原始特征,如圖像各像素點(diǎn)的稀疏和密集、語(yǔ)義和幾何信息,還包括顏色、明暗、灰度等;中間層將這些輸入層的原始特征信息分類計(jì)算后,可識(shí)別出圖像中包含的物體有哪些(如車道線、障礙物、人、車、紅綠燈等),最終輸出與自動(dòng)駕駛車有關(guān)的物體的實(shí)時(shí)距離、大小、形狀、紅綠燈顏色等要素,幫助自動(dòng)駕駛車輛完成實(shí)時(shí)感知周圍環(huán)境識(shí)別、測(cè)距等功能。
圖為:四維圖新-攝像頭視覺(jué)識(shí)別樣例
圖為:四維圖新-地下車庫(kù)建圖和實(shí)時(shí)重定位系統(tǒng)
以上我們可以看出,基于神經(jīng)網(wǎng)絡(luò)的攝像頭視覺(jué)深度學(xué)習(xí)算法比基于人為特征提取的傳統(tǒng)攝像頭視覺(jué)算法要好用的多。因此目前主流的攝像頭視覺(jué)算法,都會(huì)使用深度學(xué)習(xí)去解決自動(dòng)駕駛車對(duì)于圖像分類、圖像分割,對(duì)象檢測(cè)、多目標(biāo)跟蹤、語(yǔ)義分割、可行駛區(qū)域、目標(biāo)檢測(cè)和同步定位與地圖構(gòu)建(SLAM)、場(chǎng)景分析等任務(wù)的準(zhǔn)確率、識(shí)別率及圖像處理速度等,深度學(xué)習(xí)視覺(jué)算法也讓自動(dòng)駕駛車快速量產(chǎn)落地成為可能。
05、攝像頭深度學(xué)習(xí)算法
自動(dòng)駕駛攝像頭傳感器所使用的深度學(xué)習(xí)視覺(jué)算法常用的有以下三種:
(1)基于卷積運(yùn)算的神經(jīng)網(wǎng)絡(luò)系統(tǒng),即卷積神經(jīng)網(wǎng)絡(luò)(CNN,ConvolutionalNeural Network)。在圖像識(shí)別中應(yīng)用廣泛。
(2)基于多層神經(jīng)元的自編碼神經(jīng)網(wǎng)絡(luò),包括自編碼(Autoencoder)以及近年來(lái)受到廣泛關(guān)注的稀疏編碼(SparseCoding)。
(3)以多層自編碼神經(jīng)網(wǎng)絡(luò)的方式進(jìn)行預(yù)訓(xùn)練,進(jìn)而結(jié)合鑒別信息進(jìn)一步優(yōu)化神經(jīng)網(wǎng)絡(luò)權(quán)值的深度置信網(wǎng)絡(luò)(DBN,DeepBelief Networks)。
圖為:深度學(xué)習(xí)一般流程
06、深度學(xué)習(xí)是一個(gè)黑箱
雖然講了這么多,究竟基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)算法是如何獲得輸入輸出的,其實(shí)上面的案例和算法分類也只是幫助我們?nèi)ズ?jiǎn)單理解深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),事實(shí)上深度學(xué)習(xí)是一個(gè)“黑箱”。“黑箱”意味著深度學(xué)習(xí)的中間過(guò)程不可知,深度學(xué)習(xí)產(chǎn)生的結(jié)果不可控。實(shí)際上程序員們編程后的神經(jīng)網(wǎng)絡(luò)到底是如何學(xué)習(xí),程序員們也不知道,只知道最終輸出結(jié)果是利用“萬(wàn)能近似定理”(Universal approximation theorem)盡可能準(zhǔn)確的擬合出輸入數(shù)據(jù)和輸出結(jié)果間的關(guān)系。
所以,很多時(shí)候深度學(xué)習(xí)能很好的完成學(xué)習(xí)識(shí)別等任務(wù),可是我們并不知道它學(xué)習(xí)到了什么,也不知道它為什么做出了特定的選擇。知其然而不知其所以然,這可以看作是深度學(xué)習(xí)的常態(tài),也是深度學(xué)習(xí)工作中的一大挑戰(zhàn)。盡管如此,深度學(xué)習(xí)還是很好用滴!
當(dāng)然,深度學(xué)習(xí)算法不僅僅可以用于自動(dòng)駕駛攝像頭方面的視覺(jué)感知,還可以用于語(yǔ)音識(shí)別、交通、醫(yī)療、生物信息等領(lǐng)域。
這里順帶說(shuō)一句,作為四維圖新而言,攝像頭不僅是四維圖新自動(dòng)駕駛解決方案里的重要傳感器,也是四維圖新高精度地圖采集的主要工具。而且在高精度地圖采集和制圖標(biāo)注過(guò)程中,不僅為四維圖新自動(dòng)駕駛深度學(xué)習(xí)提供了海量的標(biāo)注數(shù)據(jù),還建立了四維圖新自動(dòng)駕駛各類場(chǎng)景仿真庫(kù),讓四維圖新基于深度學(xué)習(xí)的自動(dòng)駕駛算法獲得的結(jié)果更為準(zhǔn)確、高效。
四維圖新通過(guò)高精度地圖采集車上搭載的高清攝像頭、激光雷達(dá)等傳感器,將采集到的數(shù)據(jù)加以處理,并通過(guò)高度的自動(dòng)化平臺(tái)進(jìn)行繪制,從而為自動(dòng)駕駛車感知、定位、規(guī)劃、決策等模塊提供重要支持。
目前四維圖新高精度地圖已經(jīng)覆蓋國(guó)內(nèi)32萬(wàn)+公里高速公路以及10000+公里城市道路。
在自動(dòng)駕駛仿真方面,依托大規(guī)模數(shù)據(jù)資源,形成參數(shù)化的場(chǎng)景模板,并具備靜態(tài)場(chǎng)景生成與動(dòng)態(tài)場(chǎng)景制作的場(chǎng)景庫(kù)構(gòu)建能力,為自動(dòng)駕駛提供完備的仿真云平臺(tái)能力和商用分析平臺(tái)能力。
圖為:四維圖新-高速道路HD Map
圖為:四維圖新-城市道路HD Map
圖為:四維圖新-自動(dòng)駕駛仿真標(biāo)準(zhǔn)場(chǎng)景庫(kù)
結(jié)語(yǔ):
相信通過(guò)這幾期的車載攝像頭以及相應(yīng)視覺(jué)算法的介紹,讓大家對(duì)攝像頭視覺(jué)傳感器有了一定的了解。眾所周知,攝像頭雖然可以實(shí)現(xiàn)很多功能,但是在逆光、光線昏暗和攝像頭遮擋等某些特定環(huán)境下,攝像頭的使用效果也會(huì)大打折扣,因此我們需要汽車其他傳感器的冗余及各傳感器數(shù)據(jù)融合計(jì)算來(lái)保障我們的自動(dòng)駕駛車更加安全。而我們四維圖新一直在致力于成為更值得客戶信賴的智能出行科技公司,也希望我們的自動(dòng)駕駛相關(guān)產(chǎn)品為小伙伴們帶來(lái)更加安全、放心、舒心的自動(dòng)駕駛體驗(yàn)。
那么下期,小編繼續(xù)為大家整理其他傳感器相關(guān)方面的資料,讓大家對(duì)自動(dòng)駕駛更為了解,敬請(qǐng)期待吧!