雖然GPU是AI的第一批受益者,快手、搜狐視頻等頭部視頻企業(yè)的創(chuàng)新應(yīng)用也正在大量采用CPU和FPGA技術(shù)。
春節(jié)將至,是選擇傳統(tǒng)春晚還是網(wǎng)絡(luò)綜藝?這在前幾年還不會成為一種選擇。盡管2019年中國電視用戶總規(guī)模超13.7億,仍然是最大的視聽媒介平臺,但中國網(wǎng)絡(luò)視頻用戶(含短視頻)規(guī)模在2019年6月已達7.59億,且增速依然強勁。即便是春晚這樣的電視節(jié)目在2020年也選擇和快手這樣的視頻企業(yè)合作互動,開展融合創(chuàng)新式體驗,足以見證視頻行業(yè)的崛起。
在視頻行業(yè)繁榮發(fā)展的背后,離不開互聯(lián)網(wǎng)技術(shù)的日新月異。其中,視頻行業(yè)的創(chuàng)新更是其中的佼佼者:從商業(yè)模式上看,在短短幾年中視頻喊個也就進行了三次迭代——搜狐視頻、優(yōu)酷為代表的點播平臺;’花椒、斗魚為代表的直播平臺;快手、抖音為代表的短視頻平臺。從內(nèi)容上看,從網(wǎng)劇的日漸精良、到網(wǎng)絡(luò)綜藝的“奇葩”紛呈,甚至是用戶原創(chuàng)內(nèi)容UGC的全民火爆,視頻行業(yè)大有取代傳統(tǒng)娛樂的發(fā)展之勢。前端應(yīng)用的精彩紛呈,體現(xiàn)的是業(yè)務(wù)的變化,也導(dǎo)致了視頻行業(yè)對數(shù)據(jù)中心底層技術(shù)需求的變化。這種變化與云、大數(shù)據(jù)和AI的發(fā)展息息相關(guān)——工作負載的多樣化,云原生應(yīng)用模型的興起都讓數(shù)據(jù)中心從統(tǒng)一平臺向著多樣化平臺轉(zhuǎn)變。
01、搜狐視頻:轉(zhuǎn)碼CPU勝出
第一批進入視頻行業(yè)的搜狐視頻,經(jīng)歷過天價購買國外頭部網(wǎng)劇版權(quán)的時代,如今將更多精力放在自制網(wǎng)劇的精良制作上,其中“法醫(yī)秦明”,“無心法師”等口碑與流量俱佳的網(wǎng)劇作品奠定了搜狐視頻的業(yè)界地位。隨著視頻行業(yè)逐漸進入全平臺、全媒體化后,視頻行業(yè)在數(shù)據(jù)中心的底層技術(shù)上不要不斷投入,更要求快速創(chuàng)新。
這也促使搜狐和英特爾早在2011年就創(chuàng)建了聯(lián)合實驗室,英特爾最新技術(shù)會早于上市之前數(shù)月就率先引入搜狐;搜狐也會將新的業(yè)務(wù)場景遷移到英特爾的最新技術(shù)和產(chǎn)品,以新場景+新技術(shù)的方式確保視頻用戶的視聽體驗。其中,視頻轉(zhuǎn)碼是一項關(guān)乎視覺體驗的重要技術(shù):
一是HDR轉(zhuǎn)碼,搜狐視頻自主研發(fā)的HDR轉(zhuǎn)碼系統(tǒng),將線上各種片庫進行HDR轉(zhuǎn)碼,彌補了HDR視頻源不足的缺陷,從而大幅提升了視頻效果;
二是超分辨率,搜狐視頻開發(fā)了基于深度學(xué)習(xí)的視頻超分辨率轉(zhuǎn)碼系統(tǒng),實現(xiàn)將現(xiàn)有的藍光視頻到4k視頻的無損轉(zhuǎn)換,可以提供大量的高質(zhì)量4k視頻源超分辨率;
三是老片翻新,搜狐視頻利用AI與轉(zhuǎn)碼系統(tǒng)相結(jié)合構(gòu)建了全自動的老片翻新轉(zhuǎn)碼系統(tǒng),提升了大量老片的畫面質(zhì)量。
值得一提的是,云轉(zhuǎn)碼是搜狐視頻的強項,可以實現(xiàn)實時轉(zhuǎn)碼,即用戶在上傳的時候就已經(jīng)實現(xiàn)轉(zhuǎn)碼,上傳完成時轉(zhuǎn)碼也基本完成,可以立即分發(fā)。
此外,一鍵實現(xiàn)添加濾鏡,人臉識別,也是AI提升用戶體驗的用武之地。帶寬成本高、時延時間長是視頻行業(yè)面臨的首要技術(shù)問題,而搜狐視頻多地互連,多點同步,多種轉(zhuǎn)碼,就要求具備穩(wěn)定性高,性能高效,技術(shù)協(xié)同的計算平臺。尤其值得一提的是,目前搜狐線上視頻全部采用CPU進行轉(zhuǎn)碼,發(fā)揮了英特爾CPU技術(shù)和生態(tài)的巨大優(yōu)勢,因為英特爾CPU的指令級優(yōu)化是GPU上完全不具備的。
據(jù)悉,應(yīng)用CPU轉(zhuǎn)碼,片源數(shù)量龐大的搜狐視頻片庫在三個月內(nèi)就完成了所有片源的視頻轉(zhuǎn)碼,將老片改頭換面。為此,搜狐視頻在視頻轉(zhuǎn)碼系統(tǒng)中最新應(yīng)用了英特爾第二代至強可擴展處理器和英特爾傲騰固態(tài)硬盤。據(jù)悉,代號為Skylake的英特爾6130系列處理器已經(jīng)廣泛應(yīng)用,最新的Cascade Lake的6240系列處理器也已進入計劃列表。
此外,搜狐視頻和英特爾展開了多項聯(lián)合創(chuàng)新,除了硬件在軟件和人工智能等方面也一同合作,比如搜狐視頻與英特爾在軟件定義存儲的性能優(yōu)化、語音識別應(yīng)用和推薦系統(tǒng)的加速與優(yōu)化、DPDK網(wǎng)絡(luò)負載均衡加速等方面也有很多探索,這對加速搜狐視頻在深度學(xué)習(xí)領(lǐng)域的應(yīng)用發(fā)揮了重要的作用。
02、快手:CPU+FPGA新應(yīng)用
大數(shù)據(jù)和AI融入工作負載已經(jīng)是大勢所趨,它們在最火爆的短視頻領(lǐng)域應(yīng)用更是如火如荼??焓值?崛起首先讓業(yè)界看到了視頻行業(yè)還可以迅速切分出短視頻這個潛力巨大的細分領(lǐng)域。誕生于2013年7月,彼時4G網(wǎng)絡(luò)和智能手機開始普及,快手也算自帶科技基因。
在后續(xù)的發(fā)展中,快手逐步證明自己“應(yīng)科技而生”——使用包括大數(shù)據(jù)、機器學(xué)習(xí)、深度學(xué)習(xí)等技術(shù)用機器代替人力完成內(nèi)容審核,并在內(nèi)容生產(chǎn)、理解、分發(fā)、消費、互動等業(yè)務(wù)閉環(huán)的各個環(huán)節(jié)優(yōu)化用戶體驗。如果你是短視頻app深度用戶,“娃娃臉”模板你肯定玩過。別小看這么一個看似簡單快捷的功能,它實際上是在移動端實時實現(xiàn)的GAN技術(shù),類似于iPhone手機上的emoji功能。
最大的不同是只有在iPhone X以上的機型才能實現(xiàn)的emoji功能,到了快手這里,哪怕用戶使用的是一千元以下的機型依舊可以變換自如。
這就是快手商業(yè)模式背后的技術(shù)突破?,F(xiàn)在,快手數(shù)據(jù)總量超過EB級,每天的請求數(shù)超過2億,已經(jīng)儼然成為一家AI+大數(shù)據(jù)驅(qū)動的公司。它對數(shù)據(jù)中心在存儲、網(wǎng)絡(luò)、計算三個方面的需求很明確:日均新增超過1500萬個短視頻,帶來內(nèi)容數(shù)據(jù)、行為數(shù)據(jù)以及隨之而來的要對數(shù)據(jù)進行特征提取對存儲的挑戰(zhàn);在訓(xùn)練和推理中因為特征參數(shù)越來越多,深度學(xué)習(xí)模型越來越深,模型越來越大,對傳輸網(wǎng)絡(luò)帶來挑戰(zhàn);千億級的展示給計算和內(nèi)存帶來挑戰(zhàn)。
這也使得快手成為第一批采用CPU+FPGA異構(gòu)計算的企業(yè)。與GPU相比,F(xiàn)PGA因低功耗、低延遲、高性能、可編程等特點,已成為線上AI推理平臺的重要選項;而GPU并不擅長推理應(yīng)用場景,而被廣泛應(yīng)用在AI訓(xùn)練平臺。
此外,F(xiàn)PGA相對GPU還有一個獨特的優(yōu)勢——具備網(wǎng)卡口,這也源于它最早應(yīng)用在通信領(lǐng)域。而針對FPGA相對劣勢——軟件開發(fā)難,英特爾推出了OpenCL的開發(fā)語言,從而降低了開發(fā)難度和開發(fā)周期。為此,快手基于英特爾FPGA提供的PAC A10、E3S10和PAC S10板卡,已經(jīng)構(gòu)建出了三大類型的異構(gòu)計算平臺,并將在數(shù)據(jù)中心部署FPGA的創(chuàng)新應(yīng)用歸結(jié)為既要“上天”,又要“入地”。
“上天”指的是FPGA是部署在云上的,首要問題是需要在數(shù)據(jù)中心找到合適的業(yè)務(wù)場景,能夠提供有價值的解決方案,它需有一定的通用性和規(guī)?;?。具體體現(xiàn)為提高業(yè)務(wù)的服務(wù)容量,這需要充分利用FPGA的優(yōu)勢之一:確定性的低延時,來降低線上服務(wù)的延時。
另外也需要采用一些高層次的開發(fā)語言(如OpenCL,甚至OpenVINO這種推理應(yīng)用框架)來加速硬件交付,以匹配軟件開發(fā)的速度。
“入地”則針對的是部署,成本、可靠性、穩(wěn)定性、能耗比上的競爭力一個也不能少。另外,快手還利用容器實現(xiàn)規(guī)?;蛷椥圆渴?。
具體實現(xiàn)來說,讓FPGA分擔(dān)計算為主的工作負載實現(xiàn)DRN(Deep Ranking Network)加速,消除排序網(wǎng)絡(luò)在業(yè)務(wù)高峰期的抖動;通過分塊完成矩陣乘法來實現(xiàn)算法到FGPA陣列結(jié)構(gòu)的映射;采用Systolic Array結(jié)構(gòu),通過片上大容量分布式SRAM,滿足計算單元高算力、高帶寬的需求,并降低了功耗。
用三個簡潔的接口將用軟件封裝好的硬件交付給業(yè)務(wù)使用,滿足動態(tài)更新的要求,提供充足的算力。此外,在數(shù)據(jù)處理方面,為了優(yōu)化視頻檢索的時間,提升高并發(fā)下的檢索效率,快手拋棄了受限于內(nèi)存價格和單臺服務(wù)器上內(nèi)存容量的KV數(shù)據(jù)庫,轉(zhuǎn)投英特爾傲騰數(shù)據(jù)中心級持久內(nèi)存構(gòu)建了異構(gòu)存儲,在Redis和推薦系統(tǒng)中都所有應(yīng)用。
通過實踐,快手發(fā)現(xiàn)在滿足業(yè)務(wù)性能需求的前提下,用傲騰持久內(nèi)存代替DRAM內(nèi)存,使得快手該存儲系統(tǒng)整體TCO大幅降低,AI算法效率大幅提升。
從搜狐視頻和快手的最新實踐中可以發(fā)現(xiàn),它們在創(chuàng)新應(yīng)用場景下都大量采用了CPU和FPGA技術(shù),雖然GPU因為AI的興起成為第一批異構(gòu)計算的受益者,但是FPGA真正崛起,而CPU也隨著新一代技術(shù)的更新向多元化應(yīng)用進一步拓展。