国产av高清怡春院ww888,亚洲毛片基地日韩毛片基地,久久精品午夜视频

編譯 |??香草，編輯?|??李水青

Sora是世界模擬器嗎？萬字長文深度解讀，楊立昆點(diǎn)贊。

智東西3月8日報道，近日，深度學(xué)習(xí)三巨頭之一、Meta首席科學(xué)家楊立昆點(diǎn)贊分享了一篇萬字博文《視頻生成器是世界模擬器嗎？（Are Video Generation Models World Simulators?）》。

▲楊立昆在X平臺上轉(zhuǎn)發(fā)并稱這是一篇好文章

文章從Sora的工作原理、模擬假說、直觀物理學(xué)、世界模型的定義、圖像生成等角度，深入探討了標(biāo)題所提出的問題，并得出結(jié)論：像Sora這樣的視頻生成器，可能不是人們想象中的“世界模擬器”，但從更寬泛的定義上來看，它們可以被視作有限的“世界模型”。

本文作者以文生圖模型為例證，論述了Sora可能和Stable Diffusion類似，生成過程超出了對像素空間表面統(tǒng)計的擬合，可能受到3D幾何和動態(tài)關(guān)鍵方面的潛在表示的影響，從而學(xué)到有用的深度、因果等特征的抽象表征。

換句話說，Sora能在潛在空間中學(xué)習(xí)抽象規(guī)律，具有部分模擬世界的能力。

自Sora于今年初發(fā)布以來，“Sora是否理解物理世界”話題引來眾多大佬下場討論。其中英偉達(dá)的科學(xué)家Jim Fan將Sora描述為“數(shù)據(jù)驅(qū)動的物理引擎”；楊立坤則多次開噴Sora，稱Sora的訓(xùn)練方式無法構(gòu)建世界模型，通過生成像素的方式來建模世界，與幾乎已經(jīng)被拋棄的“綜合分析”方法一樣，浪費(fèi)時間且“是一次徹頭徹尾的失敗”。

該文章的作者是澳大利亞悉尼麥考瑞大學(xué)的哲學(xué)講師拉斐爾·米利埃爾（Rapha?l Millière），他主要從事AI、認(rèn)知科學(xué)和心智哲學(xué)等方面的學(xué)術(shù)研究。以下是對該文章的全文編譯，由于篇幅原因進(jìn)行了部分刪減。

▲文章首頁截圖

原文地址：https://artificialcognition.net/posts/video-generation-world-simulators/#concluding-thoughts

01.Sora是一項工程壯舉架構(gòu)沒有真正突破

2024年2月16日，OpenAI推出Sora，一個令人印象深刻的新型深度學(xué)習(xí)模型，可以根據(jù)文本提示生成視頻和圖像。Sora可以生成長達(dá)一分鐘的視頻，具有不同的分辨率和寬高比。雖然目前無法測試該模型，但OpenAI挑選的結(jié)果表明它在先前的技術(shù)水平上有了巨大的改進(jìn)。OpenAI有些自大地聲稱Sora是一個“世界模擬器”。

那么什么是世界模擬器呢？

這是OpenAI對訓(xùn)練Sora動機(jī)的陳述：“我們正在教AI如何理解和模擬物理世界中的運(yùn)動，目標(biāo)是訓(xùn)練出能夠幫助人們解決需要與現(xiàn)實世界進(jìn)行交互的問題的模型?！?/p>

OpenAI還發(fā)布了Sora技術(shù)報告，其中闡述了對Sora理論意義的理解：“我們的研究結(jié)果表明，擴(kuò)展視頻生成模型是建立物理世界通用模擬器的一條可行之路?！盨ora的技術(shù)報告對細(xì)節(jié)描述得很少，但提供了一些關(guān)于架構(gòu)的線索。

其核心是一個擴(kuò)散變換器（Diffusion Transformer，簡稱DiT），這是比爾·皮布爾斯（Bill Peebles，也是Sora的主要作者之一）紐約大學(xué)的謝賽寧設(shè)計的一種架構(gòu)。

DiT是一種具有Transformer主干網(wǎng)絡(luò)的擴(kuò)散模型。我們熟悉的圖像生成模型，如Stable Diffusion是潛在擴(kuò)散模型。它們使用預(yù)訓(xùn)練的變分自動編碼器（VAE）將原始圖像從像素空間壓縮到潛在空間；然后，擴(kuò)散模型在從VAE學(xué)習(xí)的較低維潛在空間上進(jìn)行訓(xùn)練，而不是在高維像素空間上。這種擴(kuò)散過程通常使用U-Net骨干實現(xiàn)。U-Net是一種卷積神經(jīng)網(wǎng)絡(luò)，最初用于圖像分割，后來被調(diào)整用于去噪擴(kuò)散。

DiT架構(gòu)受潛在擴(kuò)散模型的啟發(fā)，但將U-Net骨干替換為修改后的視覺Transformer（ViT）。ViT是專門用于視覺任務(wù)的Transformer模型，它不以語言標(biāo)記作為輸入，而是接收圖像塊的序列。例如，一幅圖像可以分割成16*16的補(bǔ)丁（Patches），從而為Transformer提供256個輸入Tokens。同樣，作為DiT的核心修改后，ViT接受來自VAE的圖像補(bǔ)丁的潛在表示作為序列輸入Tokens。相較于帶有U-Net的傳統(tǒng)潛在擴(kuò)散模型，DiT具有一些優(yōu)勢：效率更高、擴(kuò)展性更好，而且易于適應(yīng)不同的生成分辨率。

在Sora之前，DiT架構(gòu)已經(jīng)被用于文本條件下的圖像和視頻生成。OpenAI提出的解決方案使用所謂的“視頻壓縮網(wǎng)絡(luò)”（Video compressor network），這可能是針對視頻進(jìn)行改編的VAE。其基本思想與最初的DiT相同：（1）視頻壓縮網(wǎng)絡(luò)將原始視頻輸入壓縮為潛在時空表示；（2）壓縮后的視頻被轉(zhuǎn)換為“時空補(bǔ)丁”，作為輸入Token提供給擴(kuò)散變換器；（3）在最后一個Transformer塊之后，與視頻壓縮網(wǎng)絡(luò)一起訓(xùn)練的解碼器模型將生成的潛在表示映射回像素空間。

與OpenAI之前的GPT-3等成就一樣，大家的共識似乎是，Sora的架構(gòu)并沒有什么真正的突破。正如謝賽寧所說，它實質(zhì)上是一種適用于視頻的DiT，沒有額外的花哨功能。

因此，Sora在很大程度上是一項工程壯舉，也是對擴(kuò)展能力的又一次證明。技術(shù)報告生動地說明了樣本質(zhì)量隨著訓(xùn)練計算量的增加而提高。與語言模型一樣，某些能力似乎也會隨著規(guī)模的擴(kuò)大而顯現(xiàn)；自然地，Sora也再次引發(fā)了關(guān)于純粹的擴(kuò)展到底能達(dá)到什么程度的激烈爭論。

02.模擬假說：視頻生成模型在訓(xùn)練中習(xí)得物理規(guī)律

Sora的技術(shù)報告聲稱，隨著規(guī)模的擴(kuò)大，Sora獲得了“新興的模擬能力”。它提到了通過動態(tài)攝像機(jī)運(yùn)動、遮擋、客體永久性和視頻游戲模擬等來實現(xiàn)場景一致性，作為此類能力的示例。報告繼續(xù)得出結(jié)論：“這些能力表明，視頻模型的持續(xù)擴(kuò)展是開發(fā)高性能物理和數(shù)字世界模擬器的有力路徑，這些模擬器涵蓋了生活在其中的對象、動物和人?！蔽覀兎Q之為模擬假說（Simulation hypothesis）。

這個假設(shè)的問題在于，它非常模糊。視頻生成模型模擬物理世界到底意味著什么？什么樣的證據(jù)可以支持這一主張？讓我們逐一回答這些問題。在Sora發(fā)布之后，AI行業(yè)的知名人士紛紛表達(dá)了他們對模擬假說的理解。英偉達(dá)的Jim Fan將Sora描述為“數(shù)據(jù)驅(qū)動的物理引擎”。他這樣解釋這句話的含義：“Sora通過大量視頻的梯度下降，在神經(jīng)參數(shù)中隱式地學(xué)習(xí)物理引擎。Sora是一個可學(xué)習(xí)的模擬器，或者說是‘世界模型’。

Sora必須學(xué)習(xí)一些隱式的文本到3D、3D變換、光線追蹤渲染和物理規(guī)則，以便盡可能準(zhǔn)確地模擬視頻像素。它必須學(xué)習(xí)游戲引擎的概念，以滿足目標(biāo)?！蔽锢硪娴男g(shù)語有些令人困惑，尤其是考慮到有猜測認(rèn)為Sora是在虛幻5場景上訓(xùn)練得到的，所以讓我們先澄清這一點(diǎn)。

據(jù)我所知，包括Jim Fan在內(nèi)，沒有人真的認(rèn)為Sora在推理時有一個物理引擎在循環(huán)中。換句話說，作為一個DiT模型，它不會在生成視頻時調(diào)用虛幻引擎。實際上，神經(jīng)網(wǎng)絡(luò)調(diào)用物理引擎以前已經(jīng)有人嘗試過，但不是用于視頻生成，而是為了物理推理。2023年，谷歌大腦的一篇論文Mind's Eye通過物理引擎模擬可能的結(jié)果，來提高語言模型在物理推理問題上的表現(xiàn)，將這些模擬的結(jié)果作為提示詞中的線索。

那么，我們應(yīng)該如何理解Sora類似于“數(shù)據(jù)驅(qū)動的物理引擎”模擬物理世界的主張呢？谷歌DeepMind的Nando de Freitas這樣說：“一個有限大小的神經(jīng)網(wǎng)絡(luò)能夠預(yù)測任何情況下會發(fā)生什么的唯一方式，是通過學(xué)習(xí)內(nèi)部模型來促進(jìn)這種預(yù)測，包括直觀的物理定律?！蔽覀冊絹碓浇咏M假說的明確陳述：一個基于端到端神經(jīng)網(wǎng)絡(luò)架構(gòu)、參數(shù)設(shè)置有限的足夠好的視頻生成模型，應(yīng)該有望在訓(xùn)練過程中獲得物理世界的內(nèi)部模型，因為這是神經(jīng)網(wǎng)絡(luò)生成任意場景的連貫、逼真視頻的最有效方法——也許是唯一的方法。Sora 是否真的從 2D 視頻中歸納出物理定律？如上所述，這可能看起來很荒謬。游戲引擎通常也不模擬這些法則。雖然它們可能會模擬熱效應(yīng)（火災(zāi)、爆炸）和做功（物體克服摩擦力移動），但這些模擬通常是高度抽象的，并不嚴(yán)格遵守?zé)崃W(xué)方程。他們根本不需要這樣做，因為他們的重點(diǎn)是渲染場景的視覺和交互可信度，而不是嚴(yán)格的物理準(zhǔn)確性。Sora會做類似的事情嗎？如果想回答這個問題，我們需要探討直觀物理學(xué)。

03.像人一樣通過直觀物理引擎模擬事件？

對人類而言，即使是嬰兒也展現(xiàn)出對物理世界的穩(wěn)定預(yù)期。例如看到一只球沿著地板滾向墻壁，我們會直覺地知道球會撞到墻壁并反彈回來，而不是穿過它。這就是認(rèn)知科學(xué)家稱之為直觀物理學(xué)（Intuitive physics）的東西：一種快速、自動的日常推理，它讓人們知道當(dāng)各種物體相互作用時會發(fā)生什么，而不需要有意識地進(jìn)行物理計算。

人類是如何做到的呢？認(rèn)知科學(xué)家提出了一個著名的假設(shè)，人們使用一個直觀物理引擎（IPE）來模擬物理事件。IPE類似于計算機(jī)游戲中的物理引擎，它基于不完全準(zhǔn)確的物理原理，通過隨機(jī)模擬來預(yù)測物理現(xiàn)象。根據(jù)這種觀點(diǎn)，當(dāng)我們觀察物理場景時，會根據(jù)質(zhì)量、摩擦、彈性等感知證據(jù)構(gòu)建對物體、屬性和作用力的心理表征，然后運(yùn)行內(nèi)部模擬來預(yù)測接下來會發(fā)生什么。然而，關(guān)于IPE假設(shè)也存在爭議。批評者指出，人類的物理推理有時會偏離IPE式模擬預(yù)測，包括系統(tǒng)偏差和錯誤以及對視覺捷徑的依賴等。一些人認(rèn)為，非牛頓心理模型、深度學(xué)習(xí)模型可能更好地解釋人類對物理的直覺。盡管存在爭議，但至少有一個相對合理且有豐富實驗文獻(xiàn)支持的案例支持模擬假說?，F(xiàn)在，我們可以將這一背景知識應(yīng)用于人工神經(jīng)網(wǎng)絡(luò)，探討它們是否能夠模擬物理世界。

04.已有“世界模型”未達(dá)強(qiáng)因果概念高標(biāo)準(zhǔn)

通過心理學(xué)中的直觀物理學(xué)，我們提出了一個重要的點(diǎn)：對物理場景進(jìn)行心理模擬，與僅僅表示物理世界的各個方面（例如幾何形狀）之間存在表面上的區(qū)別，這個區(qū)別在討論像視頻生成模型這樣的神經(jīng)網(wǎng)絡(luò)的能力時非常重要。世界模型（World models）的含義已經(jīng)被淡化，以至于在實踐中變得相當(dāng)難以捉摸。在機(jī)器學(xué)習(xí)研究中，它主要起源于20世紀(jì)90年代Juergen Schmidhuber實驗室的強(qiáng)化學(xué)習(xí)文獻(xiàn)。在這種情況下，世界模型指的是智能體對其交互的外部環(huán)境的內(nèi)部表示。具體來說，給定環(huán)境狀態(tài)和智能體行動，世界模型可以預(yù)測智能體采取該行動后環(huán)境的未來狀態(tài)。在2018年Ha和Schmidhuber發(fā)表的世界模型論文中，他們提出世界模型包括一個感官組件，它處理原始觀察結(jié)果，并將它們壓縮成一個緊湊的編碼。具體來說，基于RNN的世界模型被訓(xùn)練為在智能體之前的經(jīng)驗條件下，內(nèi)部模擬并預(yù)測未來的潛在觀察編碼、獎勵和終止信號（完成狀態(tài)）。

Ha和Schmidhuber的世界模型論文影響了許多后續(xù)作品。谷歌DeepMind近日推出了基礎(chǔ)世界模型Genie，雖然它不是一個強(qiáng)化學(xué)習(xí)系統(tǒng)，但它與Ha和Schmidhuber的框架具有關(guān)鍵的相似之處。Genie生成一個交互式環(huán)境，人類用戶可以通過影響未來視頻生成的操作來控制智能體，它引入了無監(jiān)督動作空間學(xué)習(xí)的概念，以避免訓(xùn)練過程中對動作標(biāo)簽的依賴。因此，任意視頻都可以作為訓(xùn)練數(shù)據(jù)，而不是帶有動作標(biāo)記的示例。

另一個值得一提的世界模型概念來自楊立昆，這在他的聯(lián)合嵌入式預(yù)測架構(gòu)（JEPA）中得到了突出體現(xiàn)。在他的框架中，世界模型是一個智能體用于規(guī)劃和推理世界如何運(yùn)作的內(nèi)部預(yù)測模型，用于兩個關(guān)鍵功能：（1）估算智能體感知系統(tǒng)未提供的有關(guān)當(dāng)前世界狀態(tài)的缺失信息；（2）預(yù)測智能體提出的一系列動作可能產(chǎn)生的多個可能的未來世界狀態(tài)。

在JEPA架構(gòu)中，世界模型模塊是由預(yù)測器網(wǎng)絡(luò)實現(xiàn)的。它最近被應(yīng)用于視頻，自監(jiān)督模型V-JEPA通過預(yù)測視頻潛在空間中遮蔽時空區(qū)域的表示來學(xué)習(xí)。V-JEPA和Sora之間的一個關(guān)鍵區(qū)別是它們各自的學(xué)習(xí)目標(biāo)，以及這些目標(biāo)可能對其潛在表示產(chǎn)生的下游影響。Sora針對像素空間的幀重建進(jìn)行訓(xùn)練的，而V-JEPA則針對潛在空間的特征預(yù)測進(jìn)行訓(xùn)練。根據(jù)楊立昆的觀點(diǎn)，這會導(dǎo)致它們潛在表示之間的巨大差異。在他看來，像素級別的生成目標(biāo)根本不足以誘導(dǎo)可能對在世界中規(guī)劃和行動有用的抽象表示。總之，人們使用“世界模型”一詞的方式略有不同。無論是生成模型、強(qiáng)化模型，還是JEPA模型，都沒有達(dá)到因果推理文獻(xiàn)中“世界模型”這一強(qiáng)因果概念所設(shè)定的高標(biāo)準(zhǔn)。那么像Sora這樣的視頻生成模型呢？我們可以從圖像生成模型中尋找線索。

05.圖像生成模型能學(xué)習(xí)3D幾何結(jié)構(gòu)提供重要線索

Sora模型的核心是DiT，它受到常用于圖像生成的潛在擴(kuò)散模型的啟發(fā)，但將U-Net骨干替換為了ViT。這引發(fā)了一系列問題：基于潛在擴(kuò)散的圖像生成模型實際上編碼了哪些信息？是僅僅編碼了圖像表面的啟發(fā)式信息，還是編碼了視覺場景的潛在變量，比如3D幾何結(jié)構(gòu)？目前，關(guān)于這個問題的研究并不多。Zhan等人于2023年提出了一種方法來評估潛在擴(kuò)散模型是否編碼了圖像中描繪的3D場景的不同物理屬性。測試結(jié)果顯示，像Stable Diffusion這樣的模型能夠編碼關(guān)于3D場景幾何、支持關(guān)系、照明和相對深度的信息，盡管在遮擋方面的分類性能較低。這項研究僅僅表明物理屬性的信息可以從模型的激活中解碼出來，并不意味著這些信息在模型行為上具有因果效力。Chen等人在2023年的研究填補(bǔ)了這一空白。他們創(chuàng)建了一個由潛在擴(kuò)散模型Stable Diffusion生成的圖像數(shù)據(jù)集，并訓(xùn)練線性探測器來預(yù)測顯著對象的分割和深度值。通過干預(yù)實驗，他們發(fā)現(xiàn)模型的內(nèi)部激活對生成圖像的幾何形狀有因果影響。

這個實驗表明，像SD這樣的潛在擴(kuò)散模型能夠?qū)W習(xí)到關(guān)于簡單場景幾何的線性表示，特別是與深度和前景/背景區(qū)分相關(guān)的表示，即使它們僅僅在沒有顯式深度監(jiān)督的情況下，只通過2D圖像進(jìn)行訓(xùn)練。此外，這些表示在迭代采樣過程的早期階段就出現(xiàn)了，而在這些階段，圖像本身對于人類觀察者來說仍然像是隨機(jī)噪聲，并且?guī)缀醪话疃刃畔ⅰ＿@表明潛在擴(kuò)散模型所做的遠(yuǎn)遠(yuǎn)超出了對像素空間表面統(tǒng)計的擬合。它們引導(dǎo)了關(guān)于深度和顯著性的潛在信息，因為這樣的信息對于生成逼真的圖像目標(biāo)非常有用。還有其他關(guān)于圖像生成模型的相關(guān)研究。低秩自適應(yīng)（LoRA）可以用來直接從潛在擴(kuò)散模型中提取內(nèi)在的“場景圖”，如表面法線和深度。該方法可以將任何圖像生成模型轉(zhuǎn)化為固有場景屬性預(yù)測器，而不需要額外的解碼網(wǎng)絡(luò)。結(jié)果表明，可以通過利用模型參數(shù)中已經(jīng)存在的信息來提取關(guān)于3D場景幾何的精細(xì)預(yù)測。

這并不意味著潛在擴(kuò)散模型能完美地表示視覺場景的各個方面的三維幾何。實際上，經(jīng)過訓(xùn)練的人眼通?？梢宰⒁獾捷敵鲋械母鞣N缺陷，物理不一致性甚至可以通過分類器進(jìn)行量化，就像Sarker等人（2023年）所做的那樣。這些不一致性包括物體及其陰影的錯位，以及違反投影幾何學(xué)的情況，例如線條未能正確地收斂到消失點(diǎn)或不遵循線性透視：

對于如何修復(fù)生成圖像中這些持續(xù)存在的缺陷，有很多有趣的猜想。一個假設(shè)是，測試的模型可能不夠大，或者訓(xùn)練數(shù)據(jù)不夠充分。通過擴(kuò)大參數(shù)和數(shù)據(jù)集的規(guī)模，可能足以使?jié)撛跀U(kuò)散模型學(xué)習(xí)正確的投影幾何，就像它足以修復(fù)先前模型中的許多其他逼真性和連貫性問題一樣。但也有可能存在更基本的問題，阻止?jié)撛跀U(kuò)散模型正確學(xué)習(xí)投影幾何。例如，它們的架構(gòu)可能缺乏適當(dāng)?shù)臍w納偏差。在這種情況下，使用ViT作為主干結(jié)構(gòu)的DiT也可能減輕純潛在擴(kuò)散的不足之處?？傊?，對潛在擴(kuò)散模型的探測和干預(yù)研究表明，它們確實能表示視覺場景3D幾何的一些特征，這與它們原則上可以學(xué)習(xí)至少有限程度的“世界模型”的假設(shè)是一致的。它們的潛在空間編碼了結(jié)構(gòu)保持、因果有效的信息，這些信息超越了像素空間的表面統(tǒng)計數(shù)據(jù)。這是解決關(guān)于Sora和模擬假說的猜測的重要線索。

06.Sora在潛在空間中學(xué)習(xí)抽象規(guī)律是有限的“世界模擬器”

與用于圖像生成的潛在擴(kuò)散模型一樣，Sora是根據(jù)視覺輸入進(jìn)行端到端訓(xùn)練的，其訓(xùn)練和生成都沒有明確地以物理變量為條件。但就像潛在擴(kuò)散模型一樣，它的輸出表現(xiàn)出驚人的規(guī)律性。在回顧了認(rèn)知科學(xué)和機(jī)器學(xué)習(xí)中的直觀物理模擬和世界模型的不同方式后，我們可以肯定的第一件事是，Sora從根本上不同于使用專用“直觀物理引擎”來運(yùn)行模擬的復(fù)合模型。與直觀物理引擎模型不同，Sora沒有專門的感知、預(yù)測和決策模塊，需要像物理引擎這樣的接口；它只是一個高維空間，其中潛在表示經(jīng)歷跨層的連續(xù)變換。Sora也與Ha和Schmidhuber的世界模型大不相同。它不基于離散動作、觀察和獎勵信號的歷史來運(yùn)行模擬。在這方面，OpenAI的技術(shù)報告有些誤導(dǎo)性內(nèi)容。其給出的Sora演示視頻看起來像是從Minecraft這樣的視頻游戲中捕獲的，但技術(shù)報告對這些輸出結(jié)果的解釋卻更進(jìn)一步：Sora可通過基本策略（basic policy）控制Minecraft中的玩家，同時還能高保真地呈現(xiàn)世界及其動態(tài)效果。

這表明Sora模仿了一個智能體（“可控”角色）的政策，就像離線強(qiáng)化學(xué)習(xí)一樣。但這里沒有傳統(tǒng)意義上的“策略”——或者說代理、動作、獎勵。

與Genie不同，Sora沒有接受過從視頻中誘發(fā)潛在動作的訓(xùn)練，并且其輸出也不以此類動作為條件。如果按照字面意思，技術(shù)報告暗示Sora已經(jīng)自發(fā)地學(xué)會了在Minecraft角色內(nèi)部表示類似隱式策略的東西，但這肯定不是我們僅通過查看輸出就可以推斷出來的。這是一個相當(dāng)大膽的主張，應(yīng)該通過分析模型內(nèi)部的情況來澄清和支持。因此，Sora與IPE模型、基于RL世界模型以及Genie不同，在以下強(qiáng)定義上，它不是一個“世界模擬器”。

定義1：一個可以對環(huán)境的元素和動態(tài)進(jìn)行向前時間模擬，并且其預(yù)測是基于這些模擬的輸出條件的系統(tǒng)。Sora對時空Token的預(yù)測是基于先前的時空Token序列進(jìn)行的，它不涉及運(yùn)行大量關(guān)于2D視頻場景中所描繪的3D世界的向前時間模擬。它不會像傳統(tǒng)搜索算法一樣，通過運(yùn)行多個內(nèi)部模擬來預(yù)測合法移動，并根據(jù)結(jié)果調(diào)整下一步的預(yù)測。然而，我們不能完全排除Sora是一個“世界模擬器”的假設(shè)，或者稍微不那么嚴(yán)謹(jǐn)?shù)卣f，它是一個“世界模型”，這個概念的弱意義是受到Othello-GPT等系統(tǒng)的啟發(fā)。

定義2：一種可學(xué)習(xí)其輸入域（包括三維環(huán)境的物理屬性等）屬性的結(jié)構(gòu)保留、因果效應(yīng)表征的系統(tǒng)。作為DiT，Sora本質(zhì)上是一個潛在擴(kuò)散模型，盡管它有一個Transformer主干網(wǎng)絡(luò)。Sora與像Stable Diffusion這樣的潛在擴(kuò)散模型在兩個重要方面有所不同：（1）處理視頻（3D“時空”對象）的潛在表示，而不是圖像；（2）其規(guī)模可能要大得多，并且在更多的數(shù)據(jù)上進(jìn)行訓(xùn)練。

因此，我們可以預(yù)期，Stable Diffusion在潛在空間中的3D幾何圖形，可以轉(zhuǎn)化為像Sora這樣的系統(tǒng)；我們也可以預(yù)期，Sora能代表其輸入域的更多“世界屬性”，包括隨時間展開的過程屬性等。加里·馬庫斯（Gary Marcus）等批評者指出，Sora的某些輸出結(jié)果公然違反了物理學(xué)原理，以此作為反對模擬假說的證據(jù)。OpenAI在自己的博文和Sora技術(shù)報告中承認(rèn)了這些局限性，并提供了一些特別嚴(yán)重的例子。例如，在下面摘錄的視頻中，我們可以看到明顯的時空不一致，包括違反重力、碰撞動力學(xué)、穩(wěn)固性和物體永恒性。

首先要注意的是，雖然這些不一致的現(xiàn)象自然會讓我們覺得不可思議，但這些視頻也表現(xiàn)出了高度的一致性。玻璃杯懸浮、液體在玻璃中流動、椅子變形為奇怪的形狀、人在被遮擋時突然出現(xiàn)……這些反常現(xiàn)象之所以讓人覺得奇怪，部分原因是其他一切看起來都與人們預(yù)想的差不多。這就是為什么這些輸出結(jié)果看起來更像是來自一個物理原理奇特的世界的怪異科幻特效，而不是抽象混亂的視覺圖案。例如，場景的全局3D幾何結(jié)構(gòu)相當(dāng)一致，各種場景元素的運(yùn)動軌跡也是如此。Sora的輸出結(jié)果顯然會在直觀物理方面出錯，就像SD的輸出結(jié)果會在投影幾何方面出錯一樣，但這并不能排除這樣一種假設(shè)，即該模型在某些方面的三維幾何和動態(tài)表現(xiàn)是一致的。我們在討論Sora架構(gòu)時提到的一點(diǎn)值得重溫。

與用于生成圖像的潛在擴(kuò)散模型一樣，Sora的生成過程并不是在像素空間中進(jìn)行的，而是在潛在空間中進(jìn)行的，即對時空斑塊的潛在表征進(jìn)行編碼的空間。這大概率是很重要的一點(diǎn)，因為一些評論家認(rèn)為Sora只是學(xué)會了在逐幀像素變化中插值常見模式。對這一評價的一種理解是，Sora只是對像素空間中視頻時空“紋理”的常見變換進(jìn)行近似處理。以這種方式思考Sora如何生成視頻可能會產(chǎn)生誤導(dǎo)。在Sora的架構(gòu)中，編碼器和解碼器之間發(fā)生的一切都發(fā)生在潛在空間中。正如對潛在擴(kuò)散模型的研究表明，深度等屬性的潛在表征可以從早期擴(kuò)散時間步開始產(chǎn)生因果效應(yīng)。

Sora的情況也可能如此：與場景直觀物理相關(guān)的屬性的潛在表征即使在早期擴(kuò)散時間步也能對生成過程產(chǎn)生因果效應(yīng)，這并非不可信。楊立昆等人可能不同意這一觀點(diǎn)，因為Sora的訓(xùn)練目標(biāo)是像素級重建，盡管生成過程發(fā)生在潛在空間。因此，有人認(rèn)為Sora對視頻場景的潛在表征不可能那么抽象。但是，同樣的論點(diǎn)也適用于用于圖像生成的潛在擴(kuò)散模型；而且，我們也有具體證據(jù)表明，這些模型確實能學(xué)習(xí)到有用的深度等特征的抽象表征。也許V-JEPA的表征比Sora的更加抽象和結(jié)構(gòu)化，但這是一個開放的經(jīng)驗性問題。

07.結(jié)語：視頻生成模型從娛樂到世界模擬的探索

那么，像Sora這樣的視頻生成模型是世界模擬器嗎？或許在某種程度上是，但不一定是人們所想象的方式。它們的生成過程并不以直觀物理的前向時間模擬為條件，就像直觀物理引擎那樣；但它可能受到3D幾何和動態(tài)關(guān)鍵方面的潛在表示的影響。從更弱的意義上說，Sora可能有一個有限的世界模型，就像用于圖像生成的潛在擴(kuò)散模型有一個更有限的世界模型一樣。但我們還不能確定，除非某個研究小組以正確的方式對Sora進(jìn)行研究。OpenAI仍然偶爾進(jìn)行可解釋性研究，所以還是有希望的；我們希望看到更廣泛的研究團(tuán)隊能在可解釋性方面做出努力，比如Stable Video這樣的開源視頻生成模型。雖然這些模型的能力遠(yuǎn)不如Sora，但它們便于研究。在我們進(jìn)行猜想的同時，請允許我對視頻生成模型的未來做一個簡單的推測。

我曾說過，Sora并不是一個模擬器，因為它并不是通過先對場景進(jìn)行一系列模擬來預(yù)測視頻幀的。不過，也許Sora或其他更強(qiáng)大的視頻生成模型可以在一個更綜合的系統(tǒng)中用作模擬器。例如，Genie論文的作者們暗示了類似的模型可以用來為訓(xùn)練強(qiáng)化學(xué)習(xí)智能體生成多樣化的模擬環(huán)境。

未來，我們可以想象機(jī)器人系統(tǒng)將使用三個主要組件：（1）一個大型的視覺語言模型，用于解析語言指令，將其轉(zhuǎn)化為計劃，并對視覺輸入進(jìn)行推理；（2）一個大型的視頻生成模型，用于模擬未來可能的觀察結(jié)果，以進(jìn)行底層規(guī)劃；（3）一個通用的逆動力學(xué)模型，用于從這些模擬中提取合適的行動，并據(jù)此執(zhí)行計劃。也許（2）和（3）可以合并到一個通用的Genie式生成模型中，該模型具有內(nèi)置的（或者學(xué)習(xí)到的）表示潛在動作的能力；也可以將這三個模型合并成一個巨大的Gato式多模態(tài)模型，該模型可以解析和生成語言、時空和動作的標(biāo)記。這些推測性的場景揭示了從視頻的生成建模到更強(qiáng)大意義上的“世界模擬”之間的路徑。

讓我們以一個有趣的開放性問題來做個總結(jié)。

無論視頻生成模型在AI和機(jī)器人技術(shù)的未來中扮演什么角色，人們可能會問，與任何深度學(xué)習(xí)模型一樣，它們是否會以非表面的方式與認(rèn)知科學(xué)相關(guān)。正如前面討論的那樣，關(guān)于人類物理推理在多大程度上依賴于直觀物理引擎的顯式模擬，目前仍未達(dá)成共識。也許視頻生成模型的進(jìn)展，以及未來對其作為基于代理架構(gòu)的實際模擬器的可行性研究，會給IPE模型帶來一些壓力。

這也可能會引發(fā)有趣的討論，即是否應(yīng)將能可靠模擬直觀物理的神經(jīng)網(wǎng)絡(luò)作為端到端學(xué)習(xí)IPE的核心機(jī)制，而不是作為直觀物理IPE模型的真正替代品。無論人們對Sora和OpenAI持何種觀點(diǎn)，思考視頻生成模型如何超越其娛樂價值而與深度學(xué)習(xí)和認(rèn)知科學(xué)的關(guān)鍵研究問題相關(guān)，都是一件令人興奮的事情。從GIF生成器到世界模擬器，我們拭目以待。

器件型號	數(shù)量	器件廠商	器件描述	ECAD模型	參考價格	更多信息
ATMEGA328P-AU	1	Atmel Corporation	RISC Microcontroller, 8-Bit, FLASH, AVR RISC CPU, 20MHz, CMOS, PQFP32, 7 X 7 MM, 1 MM HEIGHT, 0.80 MM PITCH, GREEN, PLASTIC, MS-026ABA, TQFP-32	ECAD模型下載ECAD模型	$2.05	查看
STM32F429NIH6	1	STMicroelectronics	High-performance advanced line, Arm Cortex-M4 core with DSP and FPU, 2 Mbytes of Flash memory, 180 MHz CPU, ART Accelerator, Chrom-ART Accelerator, FMC with SDRAM, TFT	ECAD模型下載ECAD模型	$15.65	查看
MC9S08PA16AVTJ	1	NXP Semiconductors	MICROCONTROLLER		$2.56	查看

哲學(xué)家萬字解析Sora本質(zhì)，楊立昆點(diǎn)贊轉(zhuǎn)發(fā)，AI視頻離世界模擬器還有多遠(yuǎn)？

01.Sora是一項工程壯舉架構(gòu)沒有真正突破

02.模擬假說：視頻生成模型在訓(xùn)練中習(xí)得物理規(guī)律

03.像人一樣通過直觀物理引擎模擬事件？

04.已有“世界模型”未達(dá)強(qiáng)因果概念高標(biāo)準(zhǔn)

05.圖像生成模型能學(xué)習(xí)3D幾何結(jié)構(gòu)提供重要線索

06.Sora在潛在空間中學(xué)習(xí)抽象規(guī)律是有限的“世界模擬器”

07.結(jié)語：視頻生成模型從娛樂到世界模擬的探索

推薦器件

相關(guān)推薦

哲學(xué)家萬字解析Sora本質(zhì)，楊立昆點(diǎn)贊轉(zhuǎn)發(fā)，AI視頻離世界模擬器還有多遠(yuǎn)？

01.Sora是一項工程壯舉架構(gòu)沒有真正突破

02.模擬假說：視頻生成模型在訓(xùn)練中習(xí)得物理規(guī)律

03.像人一樣通過直觀物理引擎模擬事件？

04.已有“世界模型”未達(dá)強(qiáng)因果概念高標(biāo)準(zhǔn)

05.圖像生成模型能學(xué)習(xí)3D幾何結(jié)構(gòu)提供重要線索

06.Sora在潛在空間中學(xué)習(xí)抽象規(guī)律是有限的“世界模擬器”

07.結(jié)語：視頻生成模型從娛樂到世界模擬的探索

推薦器件

相關(guān)推薦

哲學(xué)家萬字解析Sora本質(zhì)，楊立昆點(diǎn)贊轉(zhuǎn)發(fā)，AI視頻離世界模擬器還有多遠(yuǎn)？