2020 年 9 月 5 日,第三屆「中國人工智能安防峰會 」即將于杭州強(qiáng)勢重啟。(原計(jì)劃 6 月 20 日開幕,疫情原因延期召開)
一名科學(xué)家開山立派,最顯著的標(biāo)志就是世界級的重大研究方向,能夠與該學(xué)者劃上等號,如相對論之于愛因斯坦,神經(jīng)網(wǎng)絡(luò)之于 Geoffrey Hinton。
安防領(lǐng)域的這些研究方向是什么?代表人物是誰?
沒有人知道標(biāo)準(zhǔn)答案。
上一個(gè)十年的安防技術(shù)創(chuàng)新,混沌、碎片、野蠻生長。
項(xiàng)目工程為導(dǎo)向的技術(shù)部署模式,也使得基礎(chǔ)研究對這個(gè)行業(yè)的改變乏善可陳。
而在自主創(chuàng)新與新基建的時(shí)代浪潮推動下,前沿技術(shù)將進(jìn)一步走到臺前。
那么下一個(gè)十年安防技術(shù)的趨勢是什么?
「中國人工智能安防峰會 」給出的答案是:城市大腦數(shù)字視網(wǎng)膜化、機(jī)器視覺三維化、數(shù)據(jù)建模聯(lián)邦學(xué)習(xí)化。
數(shù)字視網(wǎng)膜、三維視覺、聯(lián)邦學(xué)習(xí),對應(yīng)的世界級領(lǐng)軍科學(xué)家,分別是高文、權(quán)龍、楊強(qiáng)。
高文,中國工程院院士,中國計(jì)算機(jī)學(xué)會前理事長
權(quán)龍,全球最高級別人工智能會議 CVPR 主席
楊強(qiáng),國際人工智能聯(lián)合會首位華人理事會主席
2018-2020 年間,中國人工智能安防峰會,分別邀請了高文、權(quán)龍、楊強(qiáng),首次出席安防論壇,講述世界級前沿技術(shù),對安防行業(yè)的變革。
第一屆「中國人工智能安防峰會 」
中國工程院院士、鵬城實(shí)驗(yàn)室主任 高文
城市大腦與數(shù)字視網(wǎng)膜
高文院士
2018 年 3 月,深圳,雷鋒網(wǎng) AI 掘金志舉辦中國首個(gè)以「動態(tài)人臉與車輛識別」為主題的 AI 安防峰會。
這是業(yè)內(nèi)第一次將五大安防企業(yè)(海大宇天網(wǎng))及商湯等 AI 獨(dú)角獸的首席技術(shù)高管,聚于一堂的行業(yè)盛會。
峰會之上,中國工程程院院士、鵬城實(shí)驗(yàn)室主任高文帶來了題為《城市大腦與數(shù)字視網(wǎng)膜》的開場報(bào)告。
他提到,智慧城市已被談及多年,“視頻監(jiān)控+AI”也成為眾多公司研究的方向。
現(xiàn)階段,通過監(jiān)控?cái)z像頭讓城市變得更智智慧,不僅僅是單一的視頻檢索和計(jì)算機(jī)視覺問題,而是在面臨海量信息和突發(fā)事件時(shí),能否能迅速做出反應(yīng)、能否降低計(jì)算量、能否有效識別和檢索等一系列龐大的系統(tǒng)工程。
現(xiàn)有視頻監(jiān)控體系的弊病,使得很多復(fù)雜任務(wù)無法完成,即便是人工智能大規(guī)模滲入后,需求方也往往為了一些特殊目的才加特定的智能攝像頭和處理系統(tǒng)。有些專用攝像頭只是用來識別車牌號,有些攝像頭只用來識別人臉,這種打補(bǔ)丁式的方法實(shí)際會帶來很多問題。
針對這些問題,高文院士提出了“數(shù)字視網(wǎng)膜”的概念。
所謂數(shù)字視網(wǎng)膜,即類比于人類視網(wǎng)膜,對傳統(tǒng)攝像頭乃至視覺計(jì)算架構(gòu)進(jìn)行演進(jìn)與革新,從而能夠更加智能地支持城市大腦,服務(wù)智能安防、城市精細(xì)管理等智能應(yīng)用。
具體來說,傳統(tǒng)攝像頭只是把拍攝到的視頻數(shù)據(jù)壓縮后上傳到云端進(jìn)行存儲,再做分析識別處理。
而數(shù)字視網(wǎng)膜則要求在攝像頭端對拍攝視頻進(jìn)行高質(zhì)量視頻編碼和視覺特征提取編碼,對壓縮編碼過后的視頻流進(jìn)行本地存儲的同時(shí)按需上傳到云端,而所有的緊湊特征流同步實(shí)時(shí)同步到云端,從而既能夠保證高效的存儲,又能夠便捷地支撐大數(shù)據(jù)查詢分析。
與此同時(shí),支持在端 - 邊 - 云之間進(jìn)行面向智能視頻編碼和特征分析的深度學(xué)習(xí)模型自適應(yīng)遷移、壓縮、更新與轉(zhuǎn)換。
簡而言之,數(shù)字視網(wǎng)膜就是這樣一種包含視頻編碼流、特征編碼流和模型更新流的可伸縮端邊云協(xié)同視覺計(jì)算架構(gòu)。
這一概念從正式提出至今,才不過三年,然而從最初構(gòu)想、前期實(shí)踐、到理論基礎(chǔ)構(gòu)建卻花了近五年的時(shí)間。即使到現(xiàn)在,數(shù)據(jù)視網(wǎng)膜的技術(shù)框架也仍然在不斷完善當(dāng)中,但其影響卻將是顛覆性的。
正如高文院士在 2018 年的一篇文章中提到:
我國已明確提出“到 2020 年,基本實(shí)現(xiàn)全域覆蓋、全網(wǎng)共享、全時(shí)可用、全程可控的公共安全視頻監(jiān)控建設(shè)聯(lián)網(wǎng)應(yīng)用”,但是如果沒有重大技術(shù)突破,數(shù)千萬攝像頭根本無法實(shí)現(xiàn)“全網(wǎng)共享”的實(shí)時(shí)數(shù)據(jù)匯聚,更不可能實(shí)現(xiàn)“全時(shí)可用”的聯(lián)網(wǎng)分析識別,“數(shù)據(jù)大”變不成“大數(shù)據(jù)”,巨大潛在價(jià)值無法發(fā)掘。數(shù)字視網(wǎng)膜是應(yīng)對上述挑戰(zhàn)的一種可行的顛覆性技術(shù)發(fā)展方向。
高文院士對于「數(shù)字視網(wǎng)膜」的理解,是伴隨著對城市中視頻監(jiān)控體系所存在問題的深刻認(rèn)識而不斷深化的。
據(jù)可考查資料,高文院士最早對城市中攝像頭所存在缺陷以及可能的改進(jìn)進(jìn)行思考始于 2013 年初(或者稍早)。
在 2013 年新年伊始,高文院士曾接受人民網(wǎng)采訪,他提到現(xiàn)代攝像頭密布,但還需要后端人力去盯,一旦遇到重大案件,去調(diào)用錄像資料,卻往往起不到太大作用。
如果能夠在設(shè)計(jì)視頻編碼時(shí),讓系統(tǒng)把數(shù)據(jù)中有用的信息抽取、挖掘并分析出來,不但能節(jié)省后期的人力投入,而且能起到應(yīng)急作用。
可以合理猜測,這個(gè)時(shí)候他已經(jīng)有了模糊的概念,但對于具體如何去做,卻仍在醞釀當(dāng)中。
在 2013 年 10 月,高文院士在中國信息化周報(bào)上發(fā)表了題為《智慧城市中的視頻編碼、分析與評測》的文章。在這篇文章中,他首次系統(tǒng)提出了他對“智慧城市”中視頻監(jiān)控所存在問題的深入思考,他指出:
1、目前的監(jiān)控系統(tǒng)在設(shè)計(jì)時(shí)是為了視頻存儲和以人為核心的視頻跟蹤,而非以計(jì)算機(jī)為中心的自動分析,因此靠這樣一套系統(tǒng)來實(shí)現(xiàn)智慧城市的視頻系統(tǒng),去做自動分析,是根本無法完成的。
2、智慧城市中的視頻技術(shù)面臨三大問題,分別是存儲成本高(數(shù)據(jù)量太大)、檢索困難、對象再標(biāo)識難。而這三個(gè)問題歸結(jié)到本質(zhì)則是兩個(gè)問題,一個(gè)是編碼問題,而另一個(gè)是視頻分析識別問題。因此如何對監(jiān)控視頻進(jìn)行高效視頻編碼,以及如何對其進(jìn)行分析和檢索,是必須思考的兩個(gè)本質(zhì)問題。
3、在學(xué)術(shù)界存在一個(gè)奇怪現(xiàn)象,即做視頻編碼的學(xué)者對視頻分析不感興趣;而反過來,做視頻分析的人對編碼也不感興趣。原因在于前者處理的是像素和圖像塊,屬于圖像處理領(lǐng)域,而后者處理的是圖像特征,屬于模式識別領(lǐng)域。就像兩條路上跑的車很難交匯。
幸運(yùn)的是,高文院士正好跨界這兩個(gè)圈子,無論是在視頻編碼領(lǐng)域,還是在計(jì)算機(jī)視覺(特別是人臉識別)領(lǐng)域,他都有著重要的影響力。
其學(xué)生陳熙霖、山世光兩位研究員繼承了他在人臉識別領(lǐng)域的衣缽,如今已成為國際計(jì)算機(jī)視覺領(lǐng)域的領(lǐng)軍人物;
而其學(xué)生黃鐵軍和馬思偉兩位教授則繼承了他在編碼領(lǐng)域的衣缽,在國際視頻編碼領(lǐng)域也有著重要的影響力。
高文院士對當(dāng)代城市監(jiān)控系統(tǒng)存在問題的本質(zhì)分析,奠定了他在隨后解決這一問題的研究思路和方向。
關(guān)于高文院士
高文,北京大學(xué)博雅講席教授。1982 年于哈科大獲得學(xué)士學(xué)位,1985 年于哈工大獲得碩士學(xué)位,1988 年和 1991 分別獲得哈工大計(jì)算機(jī)應(yīng)用博士學(xué)位和東京大學(xué)電子工程博士學(xué)位。
1991 至 1996 年就職于哈爾濱工業(yè)大學(xué),1996 至 2006 就職于中國科學(xué)院計(jì)算技術(shù)研究所,2006 年 2 月至今就職于北京大學(xué)。IEEE Fellow、ACM Fellow、中國工程院院士。
他的研究領(lǐng)域?yàn)槎嗝襟w和計(jì)算機(jī)視覺,包括視頻編碼、視頻分析、多媒體檢索、人臉識別、多模態(tài)接口和虛擬現(xiàn)實(shí)。
他最常被引用的工作是基于模型的視頻編碼與基于特征的對象表達(dá)。他先后出版著作七本,合作發(fā)表 300 余篇期刊論文、700 余篇國際會議論文。
他先后多次獲得國家科技進(jìn)步獎、國家技術(shù)發(fā)明獎、國家自然科學(xué)獎等學(xué)術(shù)獎勵。
第二屆「中國人工智能安防峰會 」
CVPR 大會主席 權(quán)龍教授
三維視覺重新定義智能安防
權(quán)龍教授
2019 年 3 月,雷鋒網(wǎng) AI 掘金志再次站在技術(shù)、產(chǎn)業(yè)和商業(yè)格局最前沿,在杭州舉辦第二屆「中國人工智能安防峰會」。
大會共設(shè)置“城市大腦與邊緣計(jì)算”·“全球頂尖算法應(yīng)用”·“前端動態(tài)識別與智能視頻云”·“城市 AIoT 與邊緣智能引擎”四大議程主題。
這一次,海康、大華、華為、阿里、騰訊、松下,因“AI 安防”首次同臺。
本次峰會之上,CVPR、ICCV 世界頂會主席權(quán)龍教授為與會者們帶來了題為《三維視覺重新定義智能安防》的開場報(bào)告。
權(quán)龍教授認(rèn)為,人工智能的核心是視覺,但現(xiàn)在的視覺仍局限在二維識別層面,未來三維視覺重建將會成為最重要的任務(wù)。
現(xiàn)在的計(jì)算機(jī)視覺就是基于卷積神經(jīng)網(wǎng)絡(luò)而來,整個(gè) CNN 的架構(gòu)非常簡單,能做的事其實(shí)也沒那么多,它提取了高維的特征,然后要結(jié)合其它方法解決視覺問題。
如果有足夠的數(shù)據(jù)并且能夠明確定義想要的東西,CNN 的效果很好,但是它并沒有智能。
它能識別出貓和狗,但貓和狗的分類都是人類自己定義的,人們可以把貓和狗分開,也可以把復(fù)雜的狗類動物進(jìn)行聚合和分類,這些東西本質(zhì)上來說并不是客觀的,而是主觀的。
人們做計(jì)算機(jī)視覺研究的理想,是讓機(jī)器進(jìn)行理解圖像。如何讓它進(jìn)行理解?這非常的困難,直到現(xiàn)在也沒有人知道它怎么去進(jìn)行理解?,F(xiàn)在它能做的,只能做到認(rèn)知。人們研究計(jì)算機(jī)視覺的目的是得到視覺特征,有了視覺特征后才能開展一系列工作。
為什么視覺特征如此重要?在語音識別領(lǐng)域,語音的特征已經(jīng)定義得非常清晰——音素。
但如果拿來一個(gè)圖像,問它最重要的視覺特征是什么,答案并不明確。圖像包含像素,但像素并不是真正的特征。像素只是一個(gè)數(shù)字化的載體,將圖像進(jìn)行了數(shù)字化的表述。計(jì)算機(jī)視覺的終極目標(biāo)就是尋找行之有效的視覺特征。
在這樣一個(gè)擁有視覺特征前提之下,計(jì)算機(jī)視覺也只有兩個(gè)現(xiàn)實(shí)目的,一個(gè)是識別,另一個(gè)是三維重建。
它們的英文單詞都以“re”做前綴,說明這是一個(gè)反向的問題。
計(jì)算機(jī)視覺不是一個(gè)很好定義(ill-posed)的問題,沒有一個(gè)完美的答案或方法。
這一輪的卷積神經(jīng)網(wǎng)絡(luò)最本質(zhì)的一件事是重新定義了計(jì)算機(jī)視覺的特征。在此之前,所有的特征都是人工設(shè)計(jì)的。今天 CNN 學(xué)來的東西,它學(xué)到特征的維度動輒幾百萬,在以前沒有這類網(wǎng)絡(luò)的情況下是根本做不到的。
縱使 CNN 的特征提取能力極其強(qiáng),但是不要忘記建立在 CNN 基礎(chǔ)上的計(jì)算機(jī)視覺是單目識別,而人類是雙目。
人類的現(xiàn)實(shí)世界是在一個(gè)三維空間,拿著二維圖像去做識別,這遠(yuǎn)遠(yuǎn)不夠。
雙目視覺對整個(gè)生物世界的等級劃分是非常嚴(yán)格的。馬的眼睛往外看,對角的部分才有可能得到一部分三維信息,但它的三維視角非常小,不像人類。魚的眼睛也是往兩邊看的,它的主要視線范圍是單目的,它能看到的雙目視區(qū)也是非常狹窄的一部分。
人類有兩只眼睛,通過兩只眼睛才能得到有深度的三維信息。當(dāng)然,通過一只移動的眼睛,也可以獲得有深度的信息。
獲取深度信息的挑戰(zhàn)很大,它本質(zhì)上是一個(gè)三角測量問題。第一步需要將兩幅圖像或兩只眼睛感知到的東西進(jìn)行匹配,也就是識別。
這里的“識別”和前面有所不同,前面提到的是有標(biāo)注情況下的識別,這里的“識別”是兩幅圖像之間的識別,沒有數(shù)據(jù)庫。它不僅要識別物體,還要識別每一個(gè)像素,所以對計(jì)算量要求非常高。
在生物世界里,雙目視覺非常重要,哺乳動物都有雙目視覺,而且越兇猛的食肉的動物雙目重疊的區(qū)域越大,用雙目獲得的深度信息去主動捕捉獵物。吃草的或被吃的動物視覺單目視覺,視野很寬,只有識別而無深度,目的是被進(jìn)攻時(shí)跑得快。
在這一輪的 CNN 之前,計(jì)算機(jī)視覺里面研究最多的是三維重建這樣的問題,在 CNN 之前有非常好的人工設(shè)計(jì)的視覺特征,這些東西本質(zhì)上最早都是為三維重建而設(shè)計(jì),例如 SIFT 特征。
而在這之后的“識別”,只是把它放在一個(gè)沒有結(jié)構(gòu)的圖像數(shù)據(jù)庫里去搜索而已。由此可見,現(xiàn)代三維視覺是由三維重建所定義。CNN 誕生之前,它曾是視覺發(fā)展的主要動力源于幾何,因?yàn)樗亩x相對清晰。
計(jì)算機(jī)視覺中的三維重建包含三大問題:
一、定位置。假如我給出一張照片,計(jì)算機(jī)視覺要知道這張照片是在什么位置拍的。
二、多目。通過多目的視差獲取三維信息,識別每一個(gè)像素并進(jìn)行匹配,進(jìn)行三維重建。
三、語義識別。完成幾何三維重建后,要對這個(gè)三維信息進(jìn)行語義識別,這是重建的最終目的。
權(quán)龍教授強(qiáng)調(diào),人們要把三維場景重新捕捉,但三維重建不是最終的目的,而是要把識別加進(jìn)去,所以說最終的應(yīng)用肯定要把三維重建和識別融為一體。
關(guān)于權(quán)龍教授
權(quán)龍教授是享譽(yù)世界的計(jì)算機(jī)視覺與圖形學(xué)專家,全球最高級別的兩大計(jì)算機(jī)視覺學(xué)術(shù)會議主席,是 CVPR 和 ICCV 創(chuàng)辦 30 多年來極為少有的華人主席。
權(quán)龍于 1989 年在法國 INPL 取得博士學(xué)位,隨后在法國 INRIA 任職 CNRS 高級研究員。2001 年加入香港科技大學(xué)并擔(dān)任視覺計(jì)算與圖像科學(xué)中心主任。
權(quán)龍同時(shí)也是知名三維重建視覺平臺 Altizure 的創(chuàng)始人。權(quán)龍?jiān)?2011 年擔(dān)任 ICCV 大會主席,也將在 2022 年出任 CVPR 大會主席。
?
第三屆「中國人工智能安防峰會 」
(9 月 5 日召開)
國際人工智能聯(lián)合會首位華人理事會主席 楊強(qiáng)教授
聯(lián)邦學(xué)習(xí)或?yàn)?AI 安防的第二落腳點(diǎn)
楊強(qiáng)教授
2020 年 9 月 5 日,第三屆「中國人工智能安防峰會」也將如約而至,于杭州正式啟幕。
AI 與安防的融合,經(jīng)由 2018 年的靜水深流、2019 年的混沌廝殺,2020 年的技術(shù)研究與方案落地將會更為清晰、成熟。
今年峰會之上,國際人工智能聯(lián)合會首位華人理事會主席楊強(qiáng)教授將會作題為《聯(lián)邦學(xué)習(xí)下的數(shù)據(jù)價(jià)值與模型安全》的開場報(bào)告。用新一代 AI 技術(shù),解決人工智能落地的最大兩座大山:數(shù)據(jù)孤島與數(shù)據(jù)隱私。
安防行業(yè)歷經(jīng)兩次跨越,從最開始的通用級產(chǎn)品到解決方案,再到內(nèi)容分析前置,接下來則是平臺運(yùn)營。未來,安防行業(yè)背后是兆億級別且呈幾何式增長的巨大流量入口。
眼下,AI 技術(shù)在安防市場上的應(yīng)用主要還存有幾個(gè)挑戰(zhàn):
1、認(rèn)知問題相較感知問題較難解決。感知問題可以用神經(jīng)網(wǎng)絡(luò)函數(shù)逼近,相比之下認(rèn)知問題解決起來比較棘手,比如如何教會機(jī)器辨識一把椅子。
2、在弱線索、遮擋、模糊、對象追蹤等情況下,人類在識別的過程中通常會依據(jù)常識,并加入豐富的想象及推理。但是想要將這些能力傳授給機(jī)器則非常困難。
3、計(jì)算機(jī)視覺技術(shù)帶給機(jī)器的能力不只是用來觀察世界,而是需要與世界建立聯(lián)系,從而一起做交互,而想要做到“交互”這一步,還有很長一段距離。
基于安防場景的不斷變化,其對算法迭代的要求一定是非常嚴(yán)苛且上升的。
在這個(gè)市場中,誰能夠看到算法精度提升解鎖的更多場景,并根據(jù)場景的變化做到最為快速且精準(zhǔn)的反應(yīng),誰就能在未來競比中走得更遠(yuǎn)。
一方面,AI 在安防行業(yè)的探索才剛剛開始;另一方面,做好 AI 所必須的數(shù)據(jù)養(yǎng)料有限且質(zhì)量較差,不同數(shù)據(jù)源之間存在難以打破的壁壘。
除了少數(shù)幾家擁有海量用戶、具備產(chǎn)品和服務(wù)優(yōu)勢的巨無霸企業(yè)外,大多數(shù)中小型 AI 安防企業(yè)難以以一種合理、合法的方式跨越人工智能落地的數(shù)據(jù)鴻溝,或者需要付出巨大的成本來解決這一問題。
此外,隨著大數(shù)據(jù)的發(fā)展,重視數(shù)據(jù)隱私和安全已經(jīng)成為一種世界性的趨勢,一系列條例的出臺更是加劇了數(shù)據(jù)獲取的難度,這也給人工智能的落地應(yīng)用帶來了前所未有的挑戰(zhàn)。
何解?針對這個(gè)問題,雷鋒網(wǎng)同時(shí)采訪了六位學(xué)術(shù)界、工業(yè)界領(lǐng)頭人,得到的答案比較一致:從目前的研究進(jìn)展來看,“聯(lián)邦學(xué)習(xí)”技術(shù)可能是解決以上問題的最佳選擇。
聯(lián)邦學(xué)習(xí)作為新一代人工智能基礎(chǔ)技術(shù),正在滲透到 AI 商用瓶頸的根源,通過解決數(shù)據(jù)隱私與數(shù)據(jù)孤島問題,重塑城市安防、金融、醫(yī)療等領(lǐng)域。
近兩年,在楊強(qiáng)教授等世界級專家的聯(lián)合推動下,國內(nèi)外諸多科技巨頭,均已開始搭建聯(lián)邦學(xué)習(xí)的研究與應(yīng)用團(tuán)隊(duì)。
眼下,國內(nèi)已經(jīng)出現(xiàn)聯(lián)邦學(xué)習(xí)、共享智能、知識聯(lián)邦、聯(lián)邦智能和異步聯(lián)邦學(xué)習(xí)等多個(gè)相關(guān)研究方向。
本次出席雷鋒網(wǎng)第三屆中國人工智能安防峰會,楊強(qiáng)教授所引領(lǐng)的聯(lián)邦學(xué)習(xí)技術(shù)是否有新的進(jìn)展?技術(shù)的迭代又匹配了哪些城市安防場景?而這是否又會帶來新一輪的市場洗牌?
9 月 5 日,雷鋒網(wǎng) AI 掘金志將帶你共同見證「城市安防」的未來,尋找問題的最優(yōu)解。
關(guān)于楊強(qiáng)教授
國際人工智能聯(lián)合會(IJCAI)成立 50 年,唯一一位華人理事會主席。
美國人工智能學(xué)會(AAAI)成立 40 年,唯一一位華人大會主席。
美國人工智能學(xué)會(AAAI)歷史上,首位華人 Fellow。
同時(shí)是 ACM、AAAI、CAAI、IEEE、IAPR、AAAS 六大頂級學(xué)會的 Fellow。
現(xiàn)任:微眾銀行首席人工智能官。
曾任:華為諾亞方舟實(shí)驗(yàn)室主任、香港科技大學(xué)計(jì)算機(jī)與工程系主任。
國際兩大頂級人工智能學(xué)術(shù)期刊《IEEE TBD》和《ACM TIST》開創(chuàng)主編。