李飛飛最新長文:當視訊生成、機器人和 NVIDIA 都自稱世界模型,我們需要一個分類法
CChainCatcher Research
“世界模型”大概是 2025 年以來 AI 領域裡最熱也最混亂的概念。Sora 出來的時候,OpenAI 管它叫世界模擬器;Genie 讓你在生成的畫面裡走來走去,也叫世界模型;機器人公司說自己在做世界模型,NVIDIA 說 Omniverse 是世界模型的基礎設施,連遊戲引擎也被拉進了這個敘事。大家都在用同一個詞,但各自說的又完全不是同一件事。
今天,李飛飛在個人 Substack 發表了一篇新文章,對這一概念進行了釐清。她首先回到強化學習教科書裡那個最經典的圖(POMDP 閉環:智慧體→動作→狀態→觀測→智慧體),然後指出:現在被叫做“世界模型”的東西,其實是這個閉環的三種不同投影。輸出畫素(觀測)的是渲染器,輸出狀態的是模擬器,輸出動作的是規劃器。分類標準非常簡潔,就看你輸出的是閉環裡的哪個部分。
她判斷,三者之中,渲染器商業化最成熟但有天花板(好看不等於物理正確),規劃器最令人興奮但離真實部署最遠(實驗室演示和實際可用之間的鴻溝依然巨大),而模擬器是被嚴重低估的關鍵樞紐。因為模擬器工作在幾何、物理和動力學的層面上,既能向上投射為畫素供人類消費,也能向下推匯出動作後果供機器人使用。掌握了模擬,就同時擁有了渲染和規劃的基礎;反過來則不行。
這篇文章當然也是 World Labs 的產品宣言。他們的 Marble 已經在同時輸出高斯潑濺和碰撞網格,試圖把渲染器和模擬器統一到一個模型裡。文章末尾描繪的終局是一個統一的世界基礎模型,能根據下游需求在渲染、模擬和規劃之間自由切換。這個願景是否能實現另說,但作為一個分析框架,渲染器/模擬器/規劃器的三分法也許確實有助於穿透當前“世界模型”概念的一部分噪音。
全文譯出如下:“世界是所有發生的事情的總和。”——維特根斯坦,《邏輯哲學論》,1921。世界不是由文字構成的。在早先的一篇文章中,我們提出空間智慧是 AI 的下一個前沿,而世界模型是通向它的路徑。在此,World Labs 團隊和我想再深入一層:在如今被冠以“世界模型”之名的眾多事物中,哪些功能模組真正構成了這種能力?它們各自的用途又是什麼?
語言模型賦予了機器對概念、詞彙和推理的強大掌控力,但物理世界,無論虛擬還是真實,執行在完全不同的基底之上。語言模型學習的是文字的統計結構,世界模型學習的是空間與時間的統計結構:光如何落在一個表面上,一座花園從一個從未被相機捕捉過的角度看起來是什麼樣子,物體如何響應力並遵循物理定律。這使得“世界模型”成了當下 AI 領域最重要、同時也最被濫用的術語之一。
計算機視覺、機器人學、強化學習和生成式 AI 都聲稱自己在構建世界模型,但各自指的是截然不同的東西。一個能生成華麗但物理上不可能的火焰的視訊模型,一個即興生成可玩遊戲的語言模型,一個忠實模擬燃燒過程的物理引擎,它們都被叫作同一個名字。古希臘人從來無法就世界由什麼構成達成一致,不管是火、水還是不可分割的原子,因為“世界”從來就不是單一的東西。它始終是某個思想家為了推理某種總體性而使用的替代詞。AI 繼承了同樣的問題,而且恰好發生在這個領域最需要精確性的時刻。
要釐清這種混亂,可以從一張比上述所有技術都更古老的圖開始。所有強化學習教材,包括經典的 Sutton 和 Barto,幾十年來一直使用同一幅圖的變體來描述智慧體如何與世界互動。這幅圖的正式名稱是部分可觀測馬爾可夫決策過程(POMDP),而“世界模型”這個術語最初的定義就屬於這一傳統。一個智慧體(可以是人、機器人或軟體系統)執行動作。這些動作改變世界的狀態。但智慧體永遠無法直接看到狀態本身,它所接收到的是觀測:落在視網膜上的光子、感測器的讀數、視訊幀中的畫素。新的觀測引導新的動作,迴圈往復。
“狀態”這個詞需要拆開來看,因為在不同領域中它的含義會發生偏移。這裡說的不是化學家的狀態,不是固態、液態和氣態的區別。這裡是物理學家和機器人學家的狀態:對世界在某一時刻所發生的一切的完整描述,包括每一個物體、每一個位置、每一個速度、每一種屬性。狀態是世界的底層現實,原則上是完備的,但對於身處其中的任何智慧體來說永遠不可直接觀測。觀測是智慧體對這一現實的區域性視角。動作則是智慧體據此做出的迴應。
這個閉環(智慧體→動作→狀態→觀測→智慧體)正是賦予“世界模型”這個術語其技術含義的結構。這個短語本身更加古老,可以追溯到 Kenneth Craik 在 1943 年的提議,他認為心智通過執行現實的“小比例模型”來進行推理,而到了 1980 年代末和 1990 年代初,這一概念被引入了神經網路領域。這個閉環同樣解釋了人們今天使用這個術語時的含義。現在被稱為世界模型的各種東西,實際上是同一個閉環的不同投影,每一種輸出的是閉環中不同的組成部分。
第一種世界模型是渲染器。渲染器輸出的是觀測,具體來說是面向人眼的畫素,而最重要的品質指標是視覺保真度。一個將文字提示轉化為電影級航拍鏡頭的視訊模型就是渲染器;像 Google 的 Genie 3 或 World Labs 自己的 RTFM 這樣的互動式系統也是渲染器,它們根據使用者輸入實時生成畫面。這類模型不具備對三維結構的顯式理解。它生成的是觀看者會看到的畫面,而不是事物本身的樣子。航拍鏡頭裡的建築從空中看也許完美無瑕,但試著在下面的城市中穿行,它們就會崩塌。
第二種是模擬器。模擬器輸出的是狀態:一種在幾何、物理或動力學上忠實的世界表徵,人類和計算機程式都能在其上進行計算和互動。渲染器的契約是純視覺的,而模擬器的契約是結構性的,它要求幾何經得起檢驗,物理遵循牛頓定律,動力學的行為符合物理法則的預期。模擬器同時服務兩類使用者。建築師、設計師、電影人、遊戲開發者等專業人士需要超越視覺可信度的準確性。強化學習智慧體、機器人控制器、自動駕駛車輛等計算機程式則把模擬器當作訓練場,在其中大規模地與世界互動,測試那些在現實中要麼危險、要麼昂貴、要麼根本不可能執行的場景。
第三種是規劃器。規劃器輸出的是動作。給定一個觀測和一個目標,規劃器回答的問題是:智慧體下一步該做什麼。在很多意義上,規劃器是渲染器的逆過程。渲染器以動作為輸入、產出觀測,規劃器以觀測為輸入、產出動作,從而閉合了感知-行動迴路。視覺-語言-動作模型(VLA)、基於模型的系統,以及新一波的世界動作模型(World Action Models),都是規劃器的不同嘗試:讓系統能夠在非結構化的世界中決定機器人應該做什麼。
以上三個類別涵蓋了當前實際在落地的大部分工作,而它們之間的區分在實踐中很有用。但這三個類別並非從根本上彼此割裂。它們共享同一套關於世界如何運作的底層知識:幾何、物理、動力學。一個能從任意角度渲染一隻杯子的模型,原則上也應該能模擬杯子被推動後會發生什麼,並規劃一隻手去把它拿起來。越來越多最有意思的研究,正在有意地模糊這三者之間的邊界。
在三個類別中,模擬器受到的公眾關注最少,卻是三者中最重要的。這篇文章想糾正這種不對稱。渲染器是目前商業化程度最高的。大量影象或文字轉視訊產品正在消費和企業市場快速擴張。Google 的 Nano Banana 模型將渲染器級別的影象生成能力送到了可能數以億計的使用者手中。技術是實在的,市場也是實在的。然而渲染器優化的目標是視覺可信度而非物理準確性,這個天花板很重要。它們的輸出很漂亮,但你不能用它們來設計一座建築或訓練一個機器人。
規劃器是最令人興奮也最不成熟的,它與快速演進的機器人學習領域密切相關。過去兩年裡,這個領域產出了不少在視訊裡看起來令人印象深刻的機器人演示,但我們需要坦誠地面對這些演示究竟展示了什麼。幾乎所有演示都侷限於高度受限的實驗室環境,物體種類有限,任務時長很短。沒有一個經受過真實世界部署所要求的複雜度、多樣性和持續時長的驗證。從一段精彩的演示視訊到一個能在廚房、倉庫或手術室中可靠工作的機器人,中間的鴻溝依然巨大。
儘管如此,商業上的押注規模仍然可觀。一波資金充裕的新進入者正在爭相推出通用規劃系統,而大型基礎設施玩家則在將規劃能力架設在更廣泛的模擬堆疊之上。模擬是連線兩者的橋樑。如果說語言是對世界的抽象,畫素是對世界的投影,那麼幾何、物理和動力學就是世界本身。模擬器必須在這個層面上工作:它是結構性的骨架,視覺表現(供渲染器使用)和動作後果(供規劃器使用)都可以從中推匯出來。一個掌握了模擬的模型,能夠將它的理解投射為供人類消費的畫素,也能投射為供具身智慧體使用的動作預測。而一個只掌握了渲染或只掌握了規劃的模型,兩者都做不到。
這裡的商業空間極其廣闊。僅 NVIDIA 的 Omniverse 一項,其目標市場規模據該公司估計就超過萬億美元,涵蓋工廠、倉庫、供應鏈和數字孿生。機器人訓練、自動駕駛測試、建築視覺化、工程設計、藥物發現,全都依賴於某種形態的模擬。這個領域最困難的開放性問題也集中在這裡。帶有顯式幾何、材質屬性和物理標註的三維資料,比渲染器訓練所用的網際網路視訊稀缺了幾個數量級。sim-to-real 差距(模擬中的物體行為與真實世界中的行為之間的差異)仍然存在。生成式模擬器在此基礎上還引入了新的風險:AI 生成的幾何體可能看起來正確,但實際上包含自相交或錯誤比例的問題,導致物理模擬產生荒謬的結果。大規模的多物理模擬(剛體、可變形物體、流體、布料全部同時互動)的計算成本仍然比單一領域的模擬高出幾個數量級。
在 World Labs,Marble 是我們在這個方向上的第一步。它接受多模態輸入(文字、影象、視訊或空間草圖),生成可探索的 3D 環境,同時輸出用於視覺探索的高斯潑濺(Gaussian splats)和供物理引擎操作的碰撞網格。但 Marble 只是一段漫長弧線的第一章。隨著渲染、模擬和規劃之間的界限開始消融,整個領域都在書寫這個故事。
當前這個領域最重要的趨勢是,三個類別正在開始融合。背後的共識是:渲染一個世界、模擬它、在其中行動,所需要的知識在很大程度上是相同的。沿用前面的例子,一個真正理解杯子如何放在桌上的模型(它的幾何形狀、材質屬性、對力的響應等等),應該能夠從任意角度渲染這隻杯子,模擬杯子被推動後會發生什麼,並規劃一隻手去拿起它。三個類別是同一種底層理解的三種投影。
比如,最近已有少量但在增長中的工作來自不同的機器人實驗室,它們展示了一種至少在概念上成立的可能性:一個預訓練的視訊渲染器可以作為聯合世界預測和動作預測的骨幹網路,讓單一模型同時想象“會發生什麼”和“該做什麼”,從而在渲染器和規劃器之間架起橋樑。World Labs 的 Marble 已經能從單一模型同時輸出高斯潑濺和碰撞網格,消解了渲染器與模擬器之間的邊界。每一個層面都在從被動輸出轉向互動式系統:渲染器變得可以響應動作條件,模擬器生成的世界變得更加可控和可編輯,規劃器開始進行審慎推理而不僅僅是做出反應。
邏輯上的終點是一個統一的世界模型:一個基礎模型,能夠渲染照片級真實的檢視、生成物理上準確的結構、規劃動作序列,並根據下游使用者的需求在不同輸出模態之間切換。我們仍將面對一系列嚴峻的挑戰。資料格局極不均衡,渲染器坐擁海量網際網路視訊,而模擬器和規劃器則面臨 3D 資產和機器人示範資料的嚴重匱乏。針對視覺美感的優化可能會犧牲機器人或高保真模擬所需的精度。在單一架構內調和這些張力,是當今世界模型研究的核心開放問題,也是 World Labs 在持續演進 Marble 的過程中致力於解決的。
但大方向已經很清楚。從 1980 年代末至今,這個領域押的始終是同一個賭注:只要世界模型足夠豐富,智慧體看見世界、構建世界、在其中行動所需的東西就全在裡面了。這個賭注如今正在驅動一整代人的研究。而真正給它加上砝碼的,是已經在發生的融合:渲染、模擬、規劃三條線,每條都已經各自撐起價值數十億美元的產業,它們起初是獨立的研究方向,現在開始匯到一起。
當邊界消失,三者合流將重新定義一件更大的事:機器智慧與它所棲居的物理世界之間的關係,也就是空間智慧的長遠走向。語言給了機器一種談論這個世界的方式。世界模型,則是機器最終得以理解、想象、推理並與之互動的途徑。
[麻省理工科技評論]