江湖三十年鏖戰(zhàn),AI 即出,多方勢力涌入讓這個(gè)世界重新異彩紛呈,也經(jīng)歷了新一輪洗牌。
在這場戰(zhàn)役中留下姓名的企業(yè),皆因技術(shù)、產(chǎn)品、服務(wù)等硬實(shí)力,成為了行業(yè)中的佼佼者。
在同樣起跑線,有些企業(yè)總是能獨(dú)占鰲頭,以不卑不亢的姿態(tài),成為“別人家的孩子”。
AI 獨(dú)角獸依圖也是這樣一位“別人家的孩子”。
最近,在國際權(quán)威機(jī)構(gòu) ACM MM(ACM MM’20 Grand Challenge)主辦的“大規(guī)模復(fù)雜場景下人體視頻解析”挑戰(zhàn)賽(Large-scale Human-centric Video Analysis in Complex Events)的核心賽道——行為識(shí)別中,依圖科技再奪一冠。
ACM MM 被認(rèn)為是多媒體技術(shù)領(lǐng)域奧運(yùn)級(jí)別的頂級(jí)盛會(huì),也是中國計(jì)算機(jī)學(xué)會(huì)(CCF)認(rèn)證和多媒體研究領(lǐng)域評級(jí)中唯一的 A 類國際頂級(jí)會(huì)議。此次挑戰(zhàn)賽集結(jié)了國內(nèi)外約 100 支參賽隊(duì)伍,包括亞馬遜、大華、騰訊、中山大學(xué)等知名企業(yè)和院校。
同時(shí),此次競賽是該方向最接近真實(shí)場景的大規(guī)模挑戰(zhàn)賽,主要基于各類人群和復(fù)雜事件(如地震逃生、食堂用餐、下火車等)來分析人的行為,包括多人追蹤、姿態(tài)估計(jì)、姿態(tài)追蹤、行為識(shí)別等四大任務(wù);目的在于考察算法在復(fù)雜場景下對人體的解析能力,鼓勵(lì)研究者在以人為中心的分析中解決非常具有挑戰(zhàn)性和現(xiàn)實(shí)的問題。
更為關(guān)鍵的一點(diǎn)是,與其他舉辦過多次的國際競賽不同,作為首屆競賽,參賽隊(duì)伍在賽前無法了解識(shí)別的類別、數(shù)據(jù)集的大小和識(shí)別的具體需求,也就是說,對即將面對的行為類別、數(shù)據(jù)模型、比賽需求一無所知,這意味著沒有經(jīng)驗(yàn)可借鑒,沒有路徑可學(xué)習(xí)。依圖是如何在短短兩個(gè)月的挑戰(zhàn)時(shí)間內(nèi),實(shí)現(xiàn)最優(yōu)的算法性能,拿下世界第一?
挑戰(zhàn)不可能
顧名思義,大規(guī)模復(fù)雜場景挑戰(zhàn)賽必然需要大規(guī)模和復(fù)雜場景。大規(guī)模即豐富的場景、大額的數(shù)據(jù)量(一般情況下,100 萬以上的數(shù)據(jù)量在學(xué)術(shù)界會(huì)被稱為大規(guī)模)。
作為首屆比賽,HiEve 數(shù)據(jù)集標(biāo)注超 100 萬個(gè),內(nèi)容以真實(shí)視頻場景為主,囊括了當(dāng)前姿態(tài)數(shù)量最多的數(shù)據(jù)集。其中,有超 56000 個(gè)復(fù)雜事件下的人體行為,包括但不限于排隊(duì)、打架、俯身、同行、跑動(dòng)等;平均軌跡長度超過 480,是軌跡數(shù)量最多的數(shù)據(jù)集之一。
結(jié)合到比賽的具體任務(wù)而言,行為識(shí)別,簡單場景指的是一個(gè)視頻里只分析一個(gè)行為的主體;復(fù)雜場景指的是視頻里有多個(gè)人,在密集、擁擠的場景下,分析的行為還需要包含人和人之間的互動(dòng)。
1)數(shù)據(jù)量大,但有效數(shù)據(jù)少
比賽中,考察的行為種類非常多,且每種行為可以有多種表達(dá)方式,例如出拳、拉扯、扇巴掌等都屬于打架,而訓(xùn)練集很難覆蓋所有可能的組合。
雖然數(shù)據(jù)總量達(dá)到 100 萬,但由于視頻數(shù)據(jù)幀之間的相似性很高,包含了大量冗余數(shù)據(jù)。這些數(shù)據(jù)對算法提升泛化性的作用有限。如果去除這些極為相似的連續(xù)幀冗余數(shù)據(jù),整個(gè)訓(xùn)練數(shù)據(jù)中的數(shù)據(jù)也只有幾萬個(gè),僅僅覆蓋 20 個(gè)左右的視頻場景。這意味著有效的數(shù)據(jù)且測試分布一致的數(shù)據(jù)量并不多, 極大的增加了泛化難度。
換句話說,在訓(xùn)練過程中,大量測試的場景,并沒有被算法系統(tǒng)直接學(xué)習(xí)過。這就需要算法具備強(qiáng)大的泛化性能,讓算法學(xué)會(huì)“舉一反三”
2)場景復(fù)雜
此外,場景的復(fù)雜性無法一言以概。例如,攝像頭的拍攝質(zhì)量(清晰、抖動(dòng)、模糊、扭曲)不一, 不同場景的布局不同 (例如:商場、走廊、馬路、大廳、餐廳、公園等), 場景光線受到室內(nèi)、室外、晴天、陰天的影響也比較大;甚至還存在攝像頭俯拍、平拍、斜拍各個(gè)角度的差異、人體框的大小和遠(yuǎn)近不同、乃至人之間(人與物之間)還會(huì)經(jīng)常發(fā)生相互遮擋。
解決了算法的泛化能力問題,克服了場景的復(fù)雜性,還有其他待解難題。
3)行為差異大
要知道,實(shí)際中行為分析是非常復(fù)雜的。即使是同一類行為,在不同時(shí)刻、不同場景也具有很大差異性。比如不同的人在不同時(shí)刻行走,速度、姿態(tài)和場景遮擋都會(huì)不同?;蛘咄恍袨榫哂卸喾N不同的表現(xiàn)形式,比如單“打架”一個(gè)行為,可能包含踢人、扇耳光、拉扯等不同形式。
?
4)連續(xù)動(dòng)作和長時(shí)間動(dòng)作捕捉難
通俗的說,讀懂一個(gè)動(dòng)作,需要長期、連續(xù)跟進(jìn),還需要結(jié)合上下文,才能做“閱讀理解”。這就需要同時(shí)具備時(shí)間和空間的感知能力,準(zhǔn)確的捕捉到人在前幾秒每幀的動(dòng)作, 并集合時(shí)間上動(dòng)作發(fā)生的變化推測出行為。
以“揮拳”為例,整個(gè)過程經(jīng)歷了開始的靠近階段、揮動(dòng)拳腳的高潮階段以及結(jié)束階段。只有結(jié)合了人體每個(gè)時(shí)刻的姿態(tài),才能更準(zhǔn)確地判別出動(dòng)作。
?
更重要的是,需要在短短兩個(gè)月的時(shí)間內(nèi)解決以上問題并奪冠,做到世界第一,沒有極其深厚的技術(shù)積累、行業(yè)經(jīng)驗(yàn)以及快速解決問題的能力,難之又難。
算法“鑿山”, 算力“開路”,解鎖智能未來
當(dāng)然,也有一些業(yè)界人士毫不諱言:相較于人臉領(lǐng)域這種算法流程已經(jīng)相對確定、算法框架的技術(shù)水準(zhǔn)也趨于穩(wěn)定的成熟領(lǐng)域而言,行為識(shí)別,尤其是人的行為識(shí)別,還處于學(xué)術(shù)界的摸索階段,正因如此,很可能成為 AI 界的下一掘金地。
學(xué)術(shù)界的探索意味著沒有多少前人指路,依圖能在囊括如此復(fù)雜難題的行為識(shí)別賽道奪冠,并非偶然,除了對場景的深度理解、創(chuàng)新融合,還有硬實(shí)力的支撐。
學(xué)術(shù)界常用 frame mAP (f-mAP@avg)來作為行為識(shí)別的評價(jià)指標(biāo),f-mAP@avg 代表的含義是以關(guān)鍵幀為單位,評判行為的位置與分類是否準(zhǔn)確;與學(xué)術(shù)界對行為識(shí)別的考察指標(biāo)不同,此次競賽的評價(jià)標(biāo)準(zhǔn)是 wf-mAP@avg,這意味著更注重對難度較大的擁擠場景的考察,以及比較少見的動(dòng)作的識(shí)別,同時(shí)對于人體框的定位的精確性要求也更高。
在短短兩個(gè)月的挑戰(zhàn)時(shí)間內(nèi),依圖算法的指標(biāo)達(dá)到了 wf-mAP@avg0.26,將以往學(xué)術(shù)界中的基準(zhǔn)算法提升了近 3 倍。
掘金不易,鑿山開路更不易。何況視頻相較于圖像的行為識(shí)別更加復(fù)雜,如何建模、視頻幀之間的相關(guān)性仍是學(xué)術(shù)界一直存在的難題。
依圖深諳這一點(diǎn),優(yōu)化算法來“鑿山”。
研發(fā)團(tuán)隊(duì)透露,當(dāng)應(yīng)用場景明確后,在已知分析的對象是人體且明確知道要識(shí)別的類別后,就可以針對性的進(jìn)行算法優(yōu)化,通過算法定制化來提升算法性能,解決以往不能很好解決的問題。
此外,依圖還創(chuàng)新性地將算法與場景進(jìn)行了深度結(jié)合——一方面創(chuàng)新性的從視頻中自動(dòng)提取到豐富準(zhǔn)確的場景信息,結(jié)合先進(jìn)的行人檢測、行人重識(shí)別算法,全面構(gòu)建了人與人、人與場景、人與物之間在視頻中的關(guān)系;另一方面,借助長期在智能城市場景下的算法積淀和對行業(yè)場景的理解,從需求出發(fā),對比賽中要求的特定的 14 類任務(wù)進(jìn)行了深度算法優(yōu)化。
與其他隊(duì)伍追求復(fù)雜的多模態(tài)融合策略不同,依圖在此次競賽中竟然是用單模型奪冠。也就是說,他們借助背景提取和分割算法,將行為的解析與場景結(jié)合,大大降低了問題難度。
敢在比賽中用單模型與其他多模型融合策略 PK,不外乎自信中帶著點(diǎn)跟自己較真的狠勁,又一次展現(xiàn)了在有限的時(shí)間內(nèi)依圖算法可以做到極致。
算法“鑿山”的依圖,在開拓 AI 新領(lǐng)域的版圖上一直策馬長驅(qū),離不開算力的“開路”。
此前,依圖科技自主研發(fā)的全球首款云端視覺智能芯片求索(questcore?),可以提供強(qiáng)大算力,單路攝像頭功耗不到 1W,開啟了算法設(shè)計(jì)與芯片設(shè)計(jì)相結(jié)合的時(shí)代。
集合了高性能 AI 算法和芯片耦合設(shè)計(jì)優(yōu)化的芯片平臺(tái),結(jié)合世界領(lǐng)先的行為識(shí)別算法的依圖,將更有利于賦能智能城市、安全生產(chǎn)、智能商業(yè)等領(lǐng)域,打造新一代 AI 基礎(chǔ)設(shè)施。
細(xì)觀依圖半年來的動(dòng)態(tài),在疫情爆發(fā)初期快速研發(fā)出業(yè)界首個(gè)新冠肺炎輔助診斷系統(tǒng)并投入全國的醫(yī)院,同時(shí),頻頻刷新頂級(jí)賽事的世界紀(jì)錄,分別在貴陽和福州落地千萬量級(jí)規(guī)模的城市級(jí)人工智能應(yīng)用、通過全球權(quán)威隱私認(rèn)證管理國際認(rèn)證,發(fā)布語音超級(jí)本、入選工信部知識(shí)圖譜案例集……技術(shù)愈加成熟、落地經(jīng)驗(yàn)愈加豐富。
這些會(huì)給未來帶來什么?借用依圖科技創(chuàng)始人朱瓏近期在《人民日報(bào)》署名文章中所說:未來 10 年,低階感知智能將向高階決策智能躍遷;人工智能將向具有高度不確定性、多任務(wù)融合、復(fù)雜推理等特點(diǎn)的高階智能突破,有望實(shí)現(xiàn)看、聽、理解、規(guī)劃和控制等能力的重大躍升。