2024年春節(jié)檔,科技廠商“AI大片”的壓軸戲是這兩天OpenAI亮出的視頻模型Sora,它掀起了“文生視頻熱”,同時也吹響了新一輪大模型進擊的號角。
據(jù)悉,受益于Sora的大火,OpenAI的估值狂飆275%,在最新一輪融資中有望超過800億美元(約合5755億元),躍升為僅次于字節(jié)跳動(2250億美元)和SpaceX(1500億美元)的全球第三大獨角獸。
為什么偏偏是Sora?
明明還沒正式開放,Sora的大名已經(jīng)傳遍國內(nèi)外科技圈。走在東京街道上的時尚女郎、緩緩前進的舞龍隊伍、踏雪而來的猛犸象、海上自行車比賽……在各大社交媒體上,Sora的Demo(演示)視頻被反復(fù)播放,登頂熱搜。與之形成鮮明對比的是,幾乎同時發(fā)布的谷歌Gemini 1.5 PRO卻似乎被遺忘在了角落。
360總裁周鴻祎高度評價了Sora。他指出,Sora的面世意味著實現(xiàn)AGI(通用人工智能)的時間將從10年縮短到一兩年。在他看來,Sora只是小試牛刀,它展現(xiàn)的不僅僅是視頻制作能力,而是大模型對真實世界有了理解和模擬之后,會帶來新的成果和突破。SpaceX創(chuàng)始人馬斯克則直接在社交媒體上發(fā)布了“gg humans(人類輸了)”的感嘆?!癵g”是電子競技中常用的術(shù)語,意為“Good Games”,通常用來表示對對手的認可和自己認輸?shù)膽B(tài)度。
實際上,AI視頻生成模型并不是一個新鮮事物。谷歌早已發(fā)布零鏡頭視頻生成模型VideoPoet,百度也推出了視頻生成模型UniVG,騰訊發(fā)布了視頻生成模型VideoCrafter2,阿里有自研的視頻生成模型Animate Anyone,甚至AI初創(chuàng)企業(yè)Pika的視頻生成平臺Pika 1.0已率先面向所有用戶開放網(wǎng)頁端訪問權(quán)限。為什么偏偏是OpenAI發(fā)布的Sora“一炮而紅”?
從業(yè)內(nèi)反應(yīng)來看,Sora最令人震撼的技術(shù)突破莫過于視頻時長的巨大提升。Sora能生成長達1分鐘的視頻,遠超市面上其他AI視頻模型。此前,Runway能夠生成4秒的視頻,用戶可以將其最多延長至16秒,這已經(jīng)是AI生成視頻在2023年所能達到的最長時長紀錄:Stable Video能提供4秒的視頻,Pika則提供3秒的視頻。
Sora實現(xiàn)視頻時長的突破,背后的大功臣是其采用的Diffusion transformer模型。該模型融合了擴散模型與自回歸模型的雙重特性,在訓(xùn)練GPT這類大語言模型的時候,OpenAI把句子拆分成tokens(詞符),放到transformer進行訓(xùn)練。在Sora中,則是將不同尺寸、分辨率的視頻拆分成patch(視覺補?。裵atch當作tokens放到transformer進行訓(xùn)練。訓(xùn)練完成后再通過解碼,把tokens“渲染”成人們可以看得懂的像素。
另一個震撼性突破在于Sora展示出了對物理世界部分規(guī)律的理解,這是過去文生視頻模型的一大痛點。專家分析指出,Sora帶有“世界模型”的特質(zhì),這讓其在逼真度上更勝一籌。
所謂“世界模型”便是對真實的物理世界進行建模,讓機器能夠像人類一樣,對世界產(chǎn)生一個全面而準確的認知。這一特質(zhì)會使AI視頻生成更流暢、更符合邏輯。比如,咬一口餅干,餅干上一定會留下齒痕,這樣的邏輯對于人類來說非常簡單,而要讓AI模型領(lǐng)悟前后兩幀畫面之間的邏輯關(guān)聯(lián)則非常困難。它需要從大量數(shù)據(jù)中去學(xué)習(xí)和掌握生成語言、圖像或視頻的某種方法,從而產(chǎn)生難以解釋的“涌現(xiàn)”能力。
“Sora的成功并非偶然?!盕orrester副總裁、研究總監(jiān)戴鯤在接受《中國電子報》記者采訪時表示,這背后有四大推動因素。首先,近期不同領(lǐng)域的最新技術(shù)研究進展是促使Sora實現(xiàn)技術(shù)突破的關(guān)鍵。其次,OpenAI從2016年起就將生成式模型作為戰(zhàn)略方向,長期的技術(shù)創(chuàng)新投入積累是其成功的核心要素。另外,高質(zhì)量的海量數(shù)據(jù)和大規(guī)模高性能硬件投入是必要保證。
Stability AI的CEO埃馬德·莫斯塔克(Emad Mostaque)在社交平臺上感慨稱“奧特曼(OpenAI的創(chuàng)始人兼CEO)真是一個魔術(shù)師”,并表示Sora可以被視為AI視頻的GPT3,將在未來幾年內(nèi)得到擴展、細化、調(diào)整和優(yōu)化。
Sora并非完美無瑕
“與大語言模型相比,文生視頻模型實現(xiàn)難度顯然更大。在技術(shù)實現(xiàn)上面臨的挑戰(zhàn)主要體現(xiàn)在數(shù)據(jù)復(fù)雜性、計算資源需求和多模態(tài)融合三方面?!贝黯H表示。
以數(shù)據(jù)復(fù)雜性為例,首先大語言模型處理的是文本序列,而視頻由連續(xù)幀組成,每一幀都是一個高維圖像,文生視頻模型需要同時處理空間和時間兩個維度的數(shù)據(jù),不僅需要理解單個幀內(nèi)的像素級關(guān)系,還要捕捉幀與幀之間的動態(tài)變化和時序依賴,確保生成的視頻能夠平滑過渡和自然動作,這要求模型具備極高的時空推理能力以及對目標對象行為模式的理解;其次,大規(guī)模高質(zhì)量的標注視頻數(shù)據(jù)集比大規(guī)模文本數(shù)據(jù)集更難獲取,視頻數(shù)據(jù)涉及對顏色、亮度、運動軌跡等多種視覺特征的編碼和解碼,它的存儲和預(yù)處理也更為復(fù)雜。
與此同時,算力資源的供給也是一個大問題。視頻生成涉及大量的視覺信息處理,所需計算量遠超文本生成。模型可能需要在數(shù)以億計的參數(shù)上進行訓(xùn)練,消耗巨大的GPU算力資源。此外,文生視頻模型需要結(jié)合音頻、文本等多個模態(tài)信息,這就需要模型能夠有效融合不同類型的輸入信號,并輸出相應(yīng)的跨模態(tài)內(nèi)容,無疑將大大增加模型設(shè)計和訓(xùn)練的難度。
現(xiàn)階段的Sora并非完美無瑕。細心的網(wǎng)民們也在公開的Demo視頻中扒出了不少生成式AI的漏洞,比如隨著時間推移,有的人物、動物或物品會消失、變形或者生出分身;或者出現(xiàn)一些違背物理常識的畫面,比如穿過籃筐的籃球、懸浮移動的椅子。
OpenAI在技術(shù)報告中坦誠地公布了Sora的不成熟之處,表示Sora可能難以準確模擬復(fù)雜場景的物理原理,可能無法理解因果關(guān)系,可能混淆提示的空間細節(jié),可能難以精確描述隨著時間推移發(fā)生的事件,如遵循特定的相機軌跡等。
英偉達高級科學(xué)家Jim Fan指出,目前Sora對涌現(xiàn)物理的理解是脆弱的,遠非完美,仍會產(chǎn)生嚴重、不符合常識的幻覺,還不能很好地掌握物體間的相互作用。
“Sora對真實世界的模擬還有很大提升空間,就目前的展示內(nèi)容來看,并不意味著它已經(jīng)‘讀懂了’物理規(guī)律?!倍嗄陱氖?a class="article-link" target="_blank" href="/tag/%E8%AE%A1%E7%AE%97%E6%9C%BA/">計算機視覺研究的上海交通大學(xué)人工智能研究院副教授王韞博認為。
圖靈獎得主、Meta首席AI科學(xué)家楊立昆(Yann LeCun)在社交平臺上表示:“一個AI模型可以生成逼真的視頻,但并不代表這個AI可以理解世界?!彼岢鲞^生成式模型不適合處理視頻的觀點,并指出目前最有希望(落地)的是圖像識別模型,并不是生成式模型。
此外,Sora的出現(xiàn)也進一步加劇了人們對于AI倫理和安全治理方面的擔(dān)憂。中國人民大學(xué)哲學(xué)院教授、國家發(fā)展與戰(zhàn)略研究院研究員劉永謀指出,在AI短視頻建構(gòu)的世界中,顯然不能將眼睛看到的東西作為判斷依據(jù)。Sora的應(yīng)用,無疑將進一步加劇當代社會的“后真相”狀況,真實與虛擬的邊界進一步模糊,甚至完全被消解?!斑@需要我們高度警惕”。
DCCI互聯(lián)網(wǎng)研究院院長劉興亮表示,隨著AI生成內(nèi)容與現(xiàn)實之間的界限變得越來越模糊,如何確保內(nèi)容的真實性和透明性成為了一個重要問題。此外,版權(quán)、隱私和數(shù)據(jù)安全等問題也需要得到妥善解決。社會必須面對這些挑戰(zhàn),通過制定相關(guān)政策、法律和倫理準則來確保技術(shù)的健康發(fā)展,同時保護個人和社會的利益不受侵害。
OpenAI仍在進擊中
當前,OpenAI的估值在Sora的驅(qū)動下,正在大幅飆升。市場預(yù)計,在最新一輪由風(fēng)投公司Thrive Capital牽頭的融資中,OpenAI的估值有望超過800億美元(約合5755億元)。而作為對比,OpenAI去年年初發(fā)布ChatGPT的時候,該公司的估值大約為290億美元(約合2086億元)。
然而,OpenAI在生成式AI領(lǐng)域的野心顯然不止于此。除了先后甩出“ChatGPT”和“Sora”兩張“王炸”,攻破自然語言模型和視頻生成模型兩座“堡壘”,OpenAI還公布了籌資7萬億美元建立“芯片帝國”的計劃。這筆巨額投資相當于美國GDP(國內(nèi)生產(chǎn)總值)的25%,中國GDP的40%,全球GDP的10%。
OpenAI CEO奧特曼透露,目前OpenAI每天生成約1000億個單詞,需要大量的GPU(圖形處理器)芯片進行訓(xùn)練計算——這或許是奧特曼“造芯”的重要原因之一。此前,他曾多次“抱怨”AI芯片短缺問題,稱目前英偉達的芯片產(chǎn)能已不足以滿足未來的需求。
據(jù)業(yè)內(nèi)人士估算,ChatGPT訓(xùn)練一次大約需要2.5萬塊英偉達A100芯片。如果訓(xùn)練GPT-5,則還需要5萬張英偉達H100芯片。市場分析認為,隨著GPT模型的不斷迭代升級,未來GPT-5或?qū)⒊霈F(xiàn)無“芯”可用的情況。所以對于OpenAI而言,下場造芯是順理成章,也是必然選擇。
1月20日消息,阿爾特曼正在與中東阿布扎比G42基金、日本軟銀集團等全球投資者籌集超過80億美元資金,成立一家全新 AI 芯片公司,目標是利用資金建立一個工廠網(wǎng)絡(luò)來制造芯片,直接對標英偉達,目前談判仍處于早期階段。1月25日,奧特曼在韓國與存儲芯片龍頭SK海力士、三星電子集團的高管會面,重點提及構(gòu)建“AI 芯片聯(lián)盟”,雙方或?qū)⒃?AI 芯片設(shè)計、制造等方面與三星和SK集團合作。
除了建廠和供應(yīng)鏈合作之外,OpenAI還至少投資了 3 家芯片公司,包括美國知名算力芯片公司Cerebras(簡化芯片制造流程)、芯片初創(chuàng)企業(yè)Rain Neuromorphics(擅長算法訓(xùn)練)、Atomic Semi(致力于簡化芯片制造流程,實現(xiàn)快速生產(chǎn),降低芯片成本)。
作為科技圈的“網(wǎng)紅”公司,OpenAI的一舉一動都會引發(fā)業(yè)界高度關(guān)注。從自然語言模型ChatGPT到視頻生成模型Sora,再到AI芯片產(chǎn)業(yè)鏈,OpenAI在生成式AI領(lǐng)域的布局將幫助其確立在算法和算力上的優(yōu)勢,進而向AGI高地發(fā)起總攻。不過,正如楊立昆所言,人工智能技術(shù)仍需在抽象表征空間中不斷探索和發(fā)展。OpenAI能否繼續(xù)保持領(lǐng)先地位,搶先奔赴AGI的未來,仍有待時間揭曉。
作者:宋婧,編輯:趙晨,美編:馬麗亞,監(jiān)制:連曉東