編譯 |??香草,編輯?|??李水青
Sora是世界模擬器嗎?萬字長文深度解讀,楊立昆點(diǎn)贊。
智東西3月8日報(bào)道,近日,深度學(xué)習(xí)三巨頭之一、Meta首席科學(xué)家楊立昆點(diǎn)贊分享了一篇萬字博文《視頻生成器是世界模擬器嗎?(Are Video Generation Models World Simulators?)》。
▲楊立昆在X平臺上轉(zhuǎn)發(fā)并稱這是一篇好文章
文章從Sora的工作原理、模擬假說、直觀物理學(xué)、世界模型的定義、圖像生成等角度,深入探討了標(biāo)題所提出的問題,并得出結(jié)論:像Sora這樣的視頻生成器,可能不是人們想象中的“世界模擬器”,但從更寬泛的定義上來看,它們可以被視作有限的“世界模型”。
本文作者以文生圖模型為例證,論述了Sora可能和Stable Diffusion類似,生成過程超出了對像素空間表面統(tǒng)計(jì)的擬合,可能受到3D幾何和動(dòng)態(tài)關(guān)鍵方面的潛在表示的影響,從而學(xué)到有用的深度、因果等特征的抽象表征。
換句話說,Sora能在潛在空間中學(xué)習(xí)抽象規(guī)律,具有部分模擬世界的能力。
自Sora于今年初發(fā)布以來,“Sora是否理解物理世界”話題引來眾多大佬下場討論。其中英偉達(dá)的科學(xué)家Jim Fan將Sora描述為“數(shù)據(jù)驅(qū)動(dòng)的物理引擎”;楊立坤則多次開噴Sora,稱Sora的訓(xùn)練方式無法構(gòu)建世界模型,通過生成像素的方式來建模世界,與幾乎已經(jīng)被拋棄的“綜合分析”方法一樣,浪費(fèi)時(shí)間且“是一次徹頭徹尾的失敗”。
該文章的作者是澳大利亞悉尼麥考瑞大學(xué)的哲學(xué)講師拉斐爾·米利埃爾(Rapha?l Millière),他主要從事AI、認(rèn)知科學(xué)和心智哲學(xué)等方面的學(xué)術(shù)研究。以下是對該文章的全文編譯,由于篇幅原因進(jìn)行了部分刪減。
▲文章首頁截圖
原文地址:https://artificialcognition.net/posts/video-generation-world-simulators/#concluding-thoughts
01.Sora是一項(xiàng)工程壯舉架構(gòu)沒有真正突破
2024年2月16日,OpenAI推出Sora,一個(gè)令人印象深刻的新型深度學(xué)習(xí)模型,可以根據(jù)文本提示生成視頻和圖像。Sora可以生成長達(dá)一分鐘的視頻,具有不同的分辨率和寬高比。雖然目前無法測試該模型,但OpenAI挑選的結(jié)果表明它在先前的技術(shù)水平上有了巨大的改進(jìn)。OpenAI有些自大地聲稱Sora是一個(gè)“世界模擬器”。
那么什么是世界模擬器呢?
這是OpenAI對訓(xùn)練Sora動(dòng)機(jī)的陳述:“我們正在教AI如何理解和模擬物理世界中的運(yùn)動(dòng),目標(biāo)是訓(xùn)練出能夠幫助人們解決需要與現(xiàn)實(shí)世界進(jìn)行交互的問題的模型。”
OpenAI還發(fā)布了Sora技術(shù)報(bào)告,其中闡述了對Sora理論意義的理解:“我們的研究結(jié)果表明,擴(kuò)展視頻生成模型是建立物理世界通用模擬器的一條可行之路?!盨ora的技術(shù)報(bào)告對細(xì)節(jié)描述得很少,但提供了一些關(guān)于架構(gòu)的線索。
其核心是一個(gè)擴(kuò)散變換器(Diffusion Transformer,簡稱DiT),這是比爾·皮布爾斯(Bill Peebles,也是Sora的主要作者之一)紐約大學(xué)的謝賽寧設(shè)計(jì)的一種架構(gòu)。
DiT是一種具有Transformer主干網(wǎng)絡(luò)的擴(kuò)散模型。我們熟悉的圖像生成模型,如Stable Diffusion是潛在擴(kuò)散模型。它們使用預(yù)訓(xùn)練的變分自動(dòng)編碼器(VAE)將原始圖像從像素空間壓縮到潛在空間;然后,擴(kuò)散模型在從VAE學(xué)習(xí)的較低維潛在空間上進(jìn)行訓(xùn)練,而不是在高維像素空間上。這種擴(kuò)散過程通常使用U-Net骨干實(shí)現(xiàn)。U-Net是一種卷積神經(jīng)網(wǎng)絡(luò),最初用于圖像分割,后來被調(diào)整用于去噪擴(kuò)散。
DiT架構(gòu)受潛在擴(kuò)散模型的啟發(fā),但將U-Net骨干替換為修改后的視覺Transformer(ViT)。ViT是專門用于視覺任務(wù)的Transformer模型,它不以語言標(biāo)記作為輸入,而是接收圖像塊的序列。例如,一幅圖像可以分割成16*16的補(bǔ)丁(Patches),從而為Transformer提供256個(gè)輸入Tokens。同樣,作為DiT的核心修改后,ViT接受來自VAE的圖像補(bǔ)丁的潛在表示作為序列輸入Tokens。相較于帶有U-Net的傳統(tǒng)潛在擴(kuò)散模型,DiT具有一些優(yōu)勢:效率更高、擴(kuò)展性更好,而且易于適應(yīng)不同的生成分辨率。
在Sora之前,DiT架構(gòu)已經(jīng)被用于文本條件下的圖像和視頻生成。OpenAI提出的解決方案使用所謂的“視頻壓縮網(wǎng)絡(luò)”(Video compressor network),這可能是針對視頻進(jìn)行改編的VAE。其基本思想與最初的DiT相同:(1)視頻壓縮網(wǎng)絡(luò)將原始視頻輸入壓縮為潛在時(shí)空表示;(2)壓縮后的視頻被轉(zhuǎn)換為“時(shí)空補(bǔ)丁”,作為輸入Token提供給擴(kuò)散變換器;(3)在最后一個(gè)Transformer塊之后,與視頻壓縮網(wǎng)絡(luò)一起訓(xùn)練的解碼器模型將生成的潛在表示映射回像素空間。
與OpenAI之前的GPT-3等成就一樣,大家的共識似乎是,Sora的架構(gòu)并沒有什么真正的突破。正如謝賽寧所說,它實(shí)質(zhì)上是一種適用于視頻的DiT,沒有額外的花哨功能。
因此,Sora在很大程度上是一項(xiàng)工程壯舉,也是對擴(kuò)展能力的又一次證明。技術(shù)報(bào)告生動(dòng)地說明了樣本質(zhì)量隨著訓(xùn)練計(jì)算量的增加而提高。與語言模型一樣,某些能力似乎也會隨著規(guī)模的擴(kuò)大而顯現(xiàn);自然地,Sora也再次引發(fā)了關(guān)于純粹的擴(kuò)展到底能達(dá)到什么程度的激烈爭論。
02.模擬假說:視頻生成模型在訓(xùn)練中習(xí)得物理規(guī)律
Sora的技術(shù)報(bào)告聲稱,隨著規(guī)模的擴(kuò)大,Sora獲得了“新興的模擬能力”。它提到了通過動(dòng)態(tài)攝像機(jī)運(yùn)動(dòng)、遮擋、客體永久性和視頻游戲模擬等來實(shí)現(xiàn)場景一致性,作為此類能力的示例。報(bào)告繼續(xù)得出結(jié)論:“這些能力表明,視頻模型的持續(xù)擴(kuò)展是開發(fā)高性能物理和數(shù)字世界模擬器的有力路徑,這些模擬器涵蓋了生活在其中的對象、動(dòng)物和人?!蔽覀兎Q之為模擬假說(Simulation hypothesis)。
這個(gè)假設(shè)的問題在于,它非常模糊。視頻生成模型模擬物理世界到底意味著什么?什么樣的證據(jù)可以支持這一主張?讓我們逐一回答這些問題。在Sora發(fā)布之后,AI行業(yè)的知名人士紛紛表達(dá)了他們對模擬假說的理解。英偉達(dá)的Jim Fan將Sora描述為“數(shù)據(jù)驅(qū)動(dòng)的物理引擎”。他這樣解釋這句話的含義:“Sora通過大量視頻的梯度下降,在神經(jīng)參數(shù)中隱式地學(xué)習(xí)物理引擎。Sora是一個(gè)可學(xué)習(xí)的模擬器,或者說是‘世界模型’。
Sora必須學(xué)習(xí)一些隱式的文本到3D、3D變換、光線追蹤渲染和物理規(guī)則,以便盡可能準(zhǔn)確地模擬視頻像素。它必須學(xué)習(xí)游戲引擎的概念,以滿足目標(biāo)?!蔽锢硪娴男g(shù)語有些令人困惑,尤其是考慮到有猜測認(rèn)為Sora是在虛幻5場景上訓(xùn)練得到的,所以讓我們先澄清這一點(diǎn)。
據(jù)我所知,包括Jim Fan在內(nèi),沒有人真的認(rèn)為Sora在推理時(shí)有一個(gè)物理引擎在循環(huán)中。換句話說,作為一個(gè)DiT模型,它不會在生成視頻時(shí)調(diào)用虛幻引擎。實(shí)際上,神經(jīng)網(wǎng)絡(luò)調(diào)用物理引擎以前已經(jīng)有人嘗試過,但不是用于視頻生成,而是為了物理推理。2023年,谷歌大腦的一篇論文Mind's Eye通過物理引擎模擬可能的結(jié)果,來提高語言模型在物理推理問題上的表現(xiàn),將這些模擬的結(jié)果作為提示詞中的線索。
那么,我們應(yīng)該如何理解Sora類似于“數(shù)據(jù)驅(qū)動(dòng)的物理引擎”模擬物理世界的主張呢?谷歌DeepMind的Nando de Freitas這樣說:“一個(gè)有限大小的神經(jīng)網(wǎng)絡(luò)能夠預(yù)測任何情況下會發(fā)生什么的唯一方式,是通過學(xué)習(xí)內(nèi)部模型來促進(jìn)這種預(yù)測,包括直觀的物理定律。”我們越來越接近模擬假說的明確陳述:一個(gè)基于端到端神經(jīng)網(wǎng)絡(luò)架構(gòu)、參數(shù)設(shè)置有限的足夠好的視頻生成模型,應(yīng)該有望在訓(xùn)練過程中獲得物理世界的內(nèi)部模型,因?yàn)檫@是神經(jīng)網(wǎng)絡(luò)生成任意場景的連貫、逼真視頻的最有效方法——也許是唯一的方法。Sora 是否真的從 2D 視頻中歸納出物理定律?如上所述,這可能看起來很荒謬。游戲引擎通常也不模擬這些法則。雖然它們可能會模擬熱效應(yīng)(火災(zāi)、爆炸)和做功(物體克服摩擦力移動(dòng)),但這些模擬通常是高度抽象的,并不嚴(yán)格遵守?zé)崃W(xué)方程。他們根本不需要這樣做,因?yàn)樗麄兊闹攸c(diǎn)是渲染場景的視覺和交互可信度,而不是嚴(yán)格的物理準(zhǔn)確性。Sora會做類似的事情嗎?如果想回答這個(gè)問題,我們需要探討直觀物理學(xué)。
03.像人一樣通過直觀物理引擎模擬事件?
對人類而言,即使是嬰兒也展現(xiàn)出對物理世界的穩(wěn)定預(yù)期。例如看到一只球沿著地板滾向墻壁,我們會直覺地知道球會撞到墻壁并反彈回來,而不是穿過它。這就是認(rèn)知科學(xué)家稱之為直觀物理學(xué)(Intuitive physics)的東西:一種快速、自動(dòng)的日常推理,它讓人們知道當(dāng)各種物體相互作用時(shí)會發(fā)生什么,而不需要有意識地進(jìn)行物理計(jì)算。
人類是如何做到的呢?認(rèn)知科學(xué)家提出了一個(gè)著名的假設(shè),人們使用一個(gè)直觀物理引擎(IPE)來模擬物理事件。IPE類似于計(jì)算機(jī)游戲中的物理引擎,它基于不完全準(zhǔn)確的物理原理,通過隨機(jī)模擬來預(yù)測物理現(xiàn)象。根據(jù)這種觀點(diǎn),當(dāng)我們觀察物理場景時(shí),會根據(jù)質(zhì)量、摩擦、彈性等感知證據(jù)構(gòu)建對物體、屬性和作用力的心理表征,然后運(yùn)行內(nèi)部模擬來預(yù)測接下來會發(fā)生什么。然而,關(guān)于IPE假設(shè)也存在爭議。批評者指出,人類的物理推理有時(shí)會偏離IPE式模擬預(yù)測,包括系統(tǒng)偏差和錯(cuò)誤以及對視覺捷徑的依賴等。一些人認(rèn)為,非牛頓心理模型、深度學(xué)習(xí)模型可能更好地解釋人類對物理的直覺。盡管存在爭議,但至少有一個(gè)相對合理且有豐富實(shí)驗(yàn)文獻(xiàn)支持的案例支持模擬假說?,F(xiàn)在,我們可以將這一背景知識應(yīng)用于人工神經(jīng)網(wǎng)絡(luò),探討它們是否能夠模擬物理世界。
04.已有“世界模型”未達(dá)強(qiáng)因果概念高標(biāo)準(zhǔn)
通過心理學(xué)中的直觀物理學(xué),我們提出了一個(gè)重要的點(diǎn):對物理場景進(jìn)行心理模擬,與僅僅表示物理世界的各個(gè)方面(例如幾何形狀)之間存在表面上的區(qū)別,這個(gè)區(qū)別在討論像視頻生成模型這樣的神經(jīng)網(wǎng)絡(luò)的能力時(shí)非常重要。世界模型(World models)的含義已經(jīng)被淡化,以至于在實(shí)踐中變得相當(dāng)難以捉摸。在機(jī)器學(xué)習(xí)研究中,它主要起源于20世紀(jì)90年代Juergen Schmidhuber實(shí)驗(yàn)室的強(qiáng)化學(xué)習(xí)文獻(xiàn)。在這種情況下,世界模型指的是智能體對其交互的外部環(huán)境的內(nèi)部表示。具體來說,給定環(huán)境狀態(tài)和智能體行動(dòng),世界模型可以預(yù)測智能體采取該行動(dòng)后環(huán)境的未來狀態(tài)。在2018年Ha和Schmidhuber發(fā)表的世界模型論文中,他們提出世界模型包括一個(gè)感官組件,它處理原始觀察結(jié)果,并將它們壓縮成一個(gè)緊湊的編碼。具體來說,基于RNN的世界模型被訓(xùn)練為在智能體之前的經(jīng)驗(yàn)條件下,內(nèi)部模擬并預(yù)測未來的潛在觀察編碼、獎(jiǎng)勵(lì)和終止信號(完成狀態(tài))。
Ha和Schmidhuber的世界模型論文影響了許多后續(xù)作品。谷歌DeepMind近日推出了基礎(chǔ)世界模型Genie,雖然它不是一個(gè)強(qiáng)化學(xué)習(xí)系統(tǒng),但它與Ha和Schmidhuber的框架具有關(guān)鍵的相似之處。Genie生成一個(gè)交互式環(huán)境,人類用戶可以通過影響未來視頻生成的操作來控制智能體,它引入了無監(jiān)督動(dòng)作空間學(xué)習(xí)的概念,以避免訓(xùn)練過程中對動(dòng)作標(biāo)簽的依賴。因此,任意視頻都可以作為訓(xùn)練數(shù)據(jù),而不是帶有動(dòng)作標(biāo)記的示例。
另一個(gè)值得一提的世界模型概念來自楊立昆,這在他的聯(lián)合嵌入式預(yù)測架構(gòu)(JEPA)中得到了突出體現(xiàn)。在他的框架中,世界模型是一個(gè)智能體用于規(guī)劃和推理世界如何運(yùn)作的內(nèi)部預(yù)測模型,用于兩個(gè)關(guān)鍵功能:(1)估算智能體感知系統(tǒng)未提供的有關(guān)當(dāng)前世界狀態(tài)的缺失信息;(2)預(yù)測智能體提出的一系列動(dòng)作可能產(chǎn)生的多個(gè)可能的未來世界狀態(tài)。
在JEPA架構(gòu)中,世界模型模塊是由預(yù)測器網(wǎng)絡(luò)實(shí)現(xiàn)的。它最近被應(yīng)用于視頻,自監(jiān)督模型V-JEPA通過預(yù)測視頻潛在空間中遮蔽時(shí)空區(qū)域的表示來學(xué)習(xí)。V-JEPA和Sora之間的一個(gè)關(guān)鍵區(qū)別是它們各自的學(xué)習(xí)目標(biāo),以及這些目標(biāo)可能對其潛在表示產(chǎn)生的下游影響。Sora針對像素空間的幀重建進(jìn)行訓(xùn)練的,而V-JEPA則針對潛在空間的特征預(yù)測進(jìn)行訓(xùn)練。根據(jù)楊立昆的觀點(diǎn),這會導(dǎo)致它們潛在表示之間的巨大差異。在他看來,像素級別的生成目標(biāo)根本不足以誘導(dǎo)可能對在世界中規(guī)劃和行動(dòng)有用的抽象表示。總之,人們使用“世界模型”一詞的方式略有不同。無論是生成模型、強(qiáng)化模型,還是JEPA模型,都沒有達(dá)到因果推理文獻(xiàn)中“世界模型”這一強(qiáng)因果概念所設(shè)定的高標(biāo)準(zhǔn)。那么像Sora這樣的視頻生成模型呢?我們可以從圖像生成模型中尋找線索。
05.圖像生成模型能學(xué)習(xí)3D幾何結(jié)構(gòu)提供重要線索
Sora模型的核心是DiT,它受到常用于圖像生成的潛在擴(kuò)散模型的啟發(fā),但將U-Net骨干替換為了ViT。這引發(fā)了一系列問題:基于潛在擴(kuò)散的圖像生成模型實(shí)際上編碼了哪些信息?是僅僅編碼了圖像表面的啟發(fā)式信息,還是編碼了視覺場景的潛在變量,比如3D幾何結(jié)構(gòu)?目前,關(guān)于這個(gè)問題的研究并不多。Zhan等人于2023年提出了一種方法來評估潛在擴(kuò)散模型是否編碼了圖像中描繪的3D場景的不同物理屬性。測試結(jié)果顯示,像Stable Diffusion這樣的模型能夠編碼關(guān)于3D場景幾何、支持關(guān)系、照明和相對深度的信息,盡管在遮擋方面的分類性能較低。這項(xiàng)研究僅僅表明物理屬性的信息可以從模型的激活中解碼出來,并不意味著這些信息在模型行為上具有因果效力。Chen等人在2023年的研究填補(bǔ)了這一空白。他們創(chuàng)建了一個(gè)由潛在擴(kuò)散模型Stable Diffusion生成的圖像數(shù)據(jù)集,并訓(xùn)練線性探測器來預(yù)測顯著對象的分割和深度值。通過干預(yù)實(shí)驗(yàn),他們發(fā)現(xiàn)模型的內(nèi)部激活對生成圖像的幾何形狀有因果影響。
這個(gè)實(shí)驗(yàn)表明,像SD這樣的潛在擴(kuò)散模型能夠?qū)W習(xí)到關(guān)于簡單場景幾何的線性表示,特別是與深度和前景/背景區(qū)分相關(guān)的表示,即使它們僅僅在沒有顯式深度監(jiān)督的情況下,只通過2D圖像進(jìn)行訓(xùn)練。此外,這些表示在迭代采樣過程的早期階段就出現(xiàn)了,而在這些階段,圖像本身對于人類觀察者來說仍然像是隨機(jī)噪聲,并且?guī)缀醪话疃刃畔?。這表明潛在擴(kuò)散模型所做的遠(yuǎn)遠(yuǎn)超出了對像素空間表面統(tǒng)計(jì)的擬合。它們引導(dǎo)了關(guān)于深度和顯著性的潛在信息,因?yàn)檫@樣的信息對于生成逼真的圖像目標(biāo)非常有用。還有其他關(guān)于圖像生成模型的相關(guān)研究。低秩自適應(yīng)(LoRA)可以用來直接從潛在擴(kuò)散模型中提取內(nèi)在的“場景圖”,如表面法線和深度。該方法可以將任何圖像生成模型轉(zhuǎn)化為固有場景屬性預(yù)測器,而不需要額外的解碼網(wǎng)絡(luò)。結(jié)果表明,可以通過利用模型參數(shù)中已經(jīng)存在的信息來提取關(guān)于3D場景幾何的精細(xì)預(yù)測。
這并不意味著潛在擴(kuò)散模型能完美地表示視覺場景的各個(gè)方面的三維幾何。實(shí)際上,經(jīng)過訓(xùn)練的人眼通??梢宰⒁獾捷敵鲋械母鞣N缺陷,物理不一致性甚至可以通過分類器進(jìn)行量化,就像Sarker等人(2023年)所做的那樣。這些不一致性包括物體及其陰影的錯(cuò)位,以及違反投影幾何學(xué)的情況,例如線條未能正確地收斂到消失點(diǎn)或不遵循線性透視:
對于如何修復(fù)生成圖像中這些持續(xù)存在的缺陷,有很多有趣的猜想。一個(gè)假設(shè)是,測試的模型可能不夠大,或者訓(xùn)練數(shù)據(jù)不夠充分。通過擴(kuò)大參數(shù)和數(shù)據(jù)集的規(guī)模,可能足以使?jié)撛跀U(kuò)散模型學(xué)習(xí)正確的投影幾何,就像它足以修復(fù)先前模型中的許多其他逼真性和連貫性問題一樣。但也有可能存在更基本的問題,阻止?jié)撛跀U(kuò)散模型正確學(xué)習(xí)投影幾何。例如,它們的架構(gòu)可能缺乏適當(dāng)?shù)臍w納偏差。在這種情況下,使用ViT作為主干結(jié)構(gòu)的DiT也可能減輕純潛在擴(kuò)散的不足之處??傊?,對潛在擴(kuò)散模型的探測和干預(yù)研究表明,它們確實(shí)能表示視覺場景3D幾何的一些特征,這與它們原則上可以學(xué)習(xí)至少有限程度的“世界模型”的假設(shè)是一致的。它們的潛在空間編碼了結(jié)構(gòu)保持、因果有效的信息,這些信息超越了像素空間的表面統(tǒng)計(jì)數(shù)據(jù)。這是解決關(guān)于Sora和模擬假說的猜測的重要線索。
06.Sora在潛在空間中學(xué)習(xí)抽象規(guī)律是有限的“世界模擬器”
與用于圖像生成的潛在擴(kuò)散模型一樣,Sora是根據(jù)視覺輸入進(jìn)行端到端訓(xùn)練的,其訓(xùn)練和生成都沒有明確地以物理變量為條件。但就像潛在擴(kuò)散模型一樣,它的輸出表現(xiàn)出驚人的規(guī)律性。在回顧了認(rèn)知科學(xué)和機(jī)器學(xué)習(xí)中的直觀物理模擬和世界模型的不同方式后,我們可以肯定的第一件事是,Sora從根本上不同于使用專用“直觀物理引擎”來運(yùn)行模擬的復(fù)合模型。與直觀物理引擎模型不同,Sora沒有專門的感知、預(yù)測和決策模塊,需要像物理引擎這樣的接口;它只是一個(gè)高維空間,其中潛在表示經(jīng)歷跨層的連續(xù)變換。Sora也與Ha和Schmidhuber的世界模型大不相同。它不基于離散動(dòng)作、觀察和獎(jiǎng)勵(lì)信號的歷史來運(yùn)行模擬。在這方面,OpenAI的技術(shù)報(bào)告有些誤導(dǎo)性內(nèi)容。其給出的Sora演示視頻看起來像是從Minecraft這樣的視頻游戲中捕獲的,但技術(shù)報(bào)告對這些輸出結(jié)果的解釋卻更進(jìn)一步:Sora可通過基本策略(basic policy)控制Minecraft中的玩家,同時(shí)還能高保真地呈現(xiàn)世界及其動(dòng)態(tài)效果。
這表明Sora模仿了一個(gè)智能體(“可控”角色)的政策,就像離線強(qiáng)化學(xué)習(xí)一樣。但這里沒有傳統(tǒng)意義上的“策略”——或者說代理、動(dòng)作、獎(jiǎng)勵(lì)。
與Genie不同,Sora沒有接受過從視頻中誘發(fā)潛在動(dòng)作的訓(xùn)練,并且其輸出也不以此類動(dòng)作為條件。如果按照字面意思,技術(shù)報(bào)告暗示Sora已經(jīng)自發(fā)地學(xué)會了在Minecraft角色內(nèi)部表示類似隱式策略的東西,但這肯定不是我們僅通過查看輸出就可以推斷出來的。這是一個(gè)相當(dāng)大膽的主張,應(yīng)該通過分析模型內(nèi)部的情況來澄清和支持。因此,Sora與IPE模型、基于RL世界模型以及Genie不同,在以下強(qiáng)定義上,它不是一個(gè)“世界模擬器”。
定義1:一個(gè)可以對環(huán)境的元素和動(dòng)態(tài)進(jìn)行向前時(shí)間模擬,并且其預(yù)測是基于這些模擬的輸出條件的系統(tǒng)。Sora對時(shí)空Token的預(yù)測是基于先前的時(shí)空Token序列進(jìn)行的,它不涉及運(yùn)行大量關(guān)于2D視頻場景中所描繪的3D世界的向前時(shí)間模擬。它不會像傳統(tǒng)搜索算法一樣,通過運(yùn)行多個(gè)內(nèi)部模擬來預(yù)測合法移動(dòng),并根據(jù)結(jié)果調(diào)整下一步的預(yù)測。然而,我們不能完全排除Sora是一個(gè)“世界模擬器”的假設(shè),或者稍微不那么嚴(yán)謹(jǐn)?shù)卣f,它是一個(gè)“世界模型”,這個(gè)概念的弱意義是受到Othello-GPT等系統(tǒng)的啟發(fā)。
定義2:一種可學(xué)習(xí)其輸入域(包括三維環(huán)境的物理屬性等)屬性的結(jié)構(gòu)保留、因果效應(yīng)表征的系統(tǒng)。作為DiT,Sora本質(zhì)上是一個(gè)潛在擴(kuò)散模型,盡管它有一個(gè)Transformer主干網(wǎng)絡(luò)。Sora與像Stable Diffusion這樣的潛在擴(kuò)散模型在兩個(gè)重要方面有所不同:(1)處理視頻(3D“時(shí)空”對象)的潛在表示,而不是圖像;(2)其規(guī)??赡芤蟮枚?,并且在更多的數(shù)據(jù)上進(jìn)行訓(xùn)練。
因此,我們可以預(yù)期,Stable Diffusion在潛在空間中的3D幾何圖形,可以轉(zhuǎn)化為像Sora這樣的系統(tǒng);我們也可以預(yù)期,Sora能代表其輸入域的更多“世界屬性”,包括隨時(shí)間展開的過程屬性等。加里·馬庫斯(Gary Marcus)等批評者指出,Sora的某些輸出結(jié)果公然違反了物理學(xué)原理,以此作為反對模擬假說的證據(jù)。OpenAI在自己的博文和Sora技術(shù)報(bào)告中承認(rèn)了這些局限性,并提供了一些特別嚴(yán)重的例子。例如,在下面摘錄的視頻中,我們可以看到明顯的時(shí)空不一致,包括違反重力、碰撞動(dòng)力學(xué)、穩(wěn)固性和物體永恒性。
首先要注意的是,雖然這些不一致的現(xiàn)象自然會讓我們覺得不可思議,但這些視頻也表現(xiàn)出了高度的一致性。玻璃杯懸浮、液體在玻璃中流動(dòng)、椅子變形為奇怪的形狀、人在被遮擋時(shí)突然出現(xiàn)……這些反?,F(xiàn)象之所以讓人覺得奇怪,部分原因是其他一切看起來都與人們預(yù)想的差不多。這就是為什么這些輸出結(jié)果看起來更像是來自一個(gè)物理原理奇特的世界的怪異科幻特效,而不是抽象混亂的視覺圖案。例如,場景的全局3D幾何結(jié)構(gòu)相當(dāng)一致,各種場景元素的運(yùn)動(dòng)軌跡也是如此。Sora的輸出結(jié)果顯然會在直觀物理方面出錯(cuò),就像SD的輸出結(jié)果會在投影幾何方面出錯(cuò)一樣,但這并不能排除這樣一種假設(shè),即該模型在某些方面的三維幾何和動(dòng)態(tài)表現(xiàn)是一致的。我們在討論Sora架構(gòu)時(shí)提到的一點(diǎn)值得重溫。
與用于生成圖像的潛在擴(kuò)散模型一樣,Sora的生成過程并不是在像素空間中進(jìn)行的,而是在潛在空間中進(jìn)行的,即對時(shí)空斑塊的潛在表征進(jìn)行編碼的空間。這大概率是很重要的一點(diǎn),因?yàn)橐恍┰u論家認(rèn)為Sora只是學(xué)會了在逐幀像素變化中插值常見模式。對這一評價(jià)的一種理解是,Sora只是對像素空間中視頻時(shí)空“紋理”的常見變換進(jìn)行近似處理。以這種方式思考Sora如何生成視頻可能會產(chǎn)生誤導(dǎo)。在Sora的架構(gòu)中,編碼器和解碼器之間發(fā)生的一切都發(fā)生在潛在空間中。正如對潛在擴(kuò)散模型的研究表明,深度等屬性的潛在表征可以從早期擴(kuò)散時(shí)間步開始產(chǎn)生因果效應(yīng)。
Sora的情況也可能如此:與場景直觀物理相關(guān)的屬性的潛在表征即使在早期擴(kuò)散時(shí)間步也能對生成過程產(chǎn)生因果效應(yīng),這并非不可信。楊立昆等人可能不同意這一觀點(diǎn),因?yàn)镾ora的訓(xùn)練目標(biāo)是像素級重建,盡管生成過程發(fā)生在潛在空間。因此,有人認(rèn)為Sora對視頻場景的潛在表征不可能那么抽象。但是,同樣的論點(diǎn)也適用于用于圖像生成的潛在擴(kuò)散模型;而且,我們也有具體證據(jù)表明,這些模型確實(shí)能學(xué)習(xí)到有用的深度等特征的抽象表征。也許V-JEPA的表征比Sora的更加抽象和結(jié)構(gòu)化,但這是一個(gè)開放的經(jīng)驗(yàn)性問題。
07.結(jié)語:視頻生成模型從娛樂到世界模擬的探索
那么,像Sora這樣的視頻生成模型是世界模擬器嗎?或許在某種程度上是,但不一定是人們所想象的方式。它們的生成過程并不以直觀物理的前向時(shí)間模擬為條件,就像直觀物理引擎那樣;但它可能受到3D幾何和動(dòng)態(tài)關(guān)鍵方面的潛在表示的影響。從更弱的意義上說,Sora可能有一個(gè)有限的世界模型,就像用于圖像生成的潛在擴(kuò)散模型有一個(gè)更有限的世界模型一樣。但我們還不能確定,除非某個(gè)研究小組以正確的方式對Sora進(jìn)行研究。OpenAI仍然偶爾進(jìn)行可解釋性研究,所以還是有希望的;我們希望看到更廣泛的研究團(tuán)隊(duì)能在可解釋性方面做出努力,比如Stable Video這樣的開源視頻生成模型。雖然這些模型的能力遠(yuǎn)不如Sora,但它們便于研究。在我們進(jìn)行猜想的同時(shí),請?jiān)试S我對視頻生成模型的未來做一個(gè)簡單的推測。
我曾說過,Sora并不是一個(gè)模擬器,因?yàn)樗⒉皇峭ㄟ^先對場景進(jìn)行一系列模擬來預(yù)測視頻幀的。不過,也許Sora或其他更強(qiáng)大的視頻生成模型可以在一個(gè)更綜合的系統(tǒng)中用作模擬器。例如,Genie論文的作者們暗示了類似的模型可以用來為訓(xùn)練強(qiáng)化學(xué)習(xí)智能體生成多樣化的模擬環(huán)境。
未來,我們可以想象機(jī)器人系統(tǒng)將使用三個(gè)主要組件:(1)一個(gè)大型的視覺語言模型,用于解析語言指令,將其轉(zhuǎn)化為計(jì)劃,并對視覺輸入進(jìn)行推理;(2)一個(gè)大型的視頻生成模型,用于模擬未來可能的觀察結(jié)果,以進(jìn)行底層規(guī)劃;(3)一個(gè)通用的逆動(dòng)力學(xué)模型,用于從這些模擬中提取合適的行動(dòng),并據(jù)此執(zhí)行計(jì)劃。也許(2)和(3)可以合并到一個(gè)通用的Genie式生成模型中,該模型具有內(nèi)置的(或者學(xué)習(xí)到的)表示潛在動(dòng)作的能力;也可以將這三個(gè)模型合并成一個(gè)巨大的Gato式多模態(tài)模型,該模型可以解析和生成語言、時(shí)空和動(dòng)作的標(biāo)記。這些推測性的場景揭示了從視頻的生成建模到更強(qiáng)大意義上的“世界模擬”之間的路徑。
讓我們以一個(gè)有趣的開放性問題來做個(gè)總結(jié)。
無論視頻生成模型在AI和機(jī)器人技術(shù)的未來中扮演什么角色,人們可能會問,與任何深度學(xué)習(xí)模型一樣,它們是否會以非表面的方式與認(rèn)知科學(xué)相關(guān)。正如前面討論的那樣,關(guān)于人類物理推理在多大程度上依賴于直觀物理引擎的顯式模擬,目前仍未達(dá)成共識。也許視頻生成模型的進(jìn)展,以及未來對其作為基于代理架構(gòu)的實(shí)際模擬器的可行性研究,會給IPE模型帶來一些壓力。
這也可能會引發(fā)有趣的討論,即是否應(yīng)將能可靠模擬直觀物理的神經(jīng)網(wǎng)絡(luò)作為端到端學(xué)習(xí)IPE的核心機(jī)制,而不是作為直觀物理IPE模型的真正替代品。無論人們對Sora和OpenAI持何種觀點(diǎn),思考視頻生成模型如何超越其娛樂價(jià)值而與深度學(xué)習(xí)和認(rèn)知科學(xué)的關(guān)鍵研究問題相關(guān),都是一件令人興奮的事情。從GIF生成器到世界模擬器,我們拭目以待。