Odyssey用強化學習給世界模型挑錯，讓它自己生成訓練資料

MMetaEra

2026年05月13日 10:17

5 月 13 日（UTC+8），世界模型公司 Odyssey 釋出 PROWL（Prioritized Regret-Driven Optimization for World Model Learning），一個用強化學習驅動的對抗式訓練框架。核心做法是把遊戲環境當訓練場，讓一個受行為約束的 RL 智慧體主動尋找世界模型在幾何、運動、視覺一致性和動作響應上的失敗軌跡，再把這些軌跡送回模型繼續訓練。這套機制的關鍵是形成可擴充套件的反饋閉環。PROWL 設計了一個優先順序對抗軌跡緩衝區（PAT），當模型學會處理簡單失敗案例後，PAT 自動降低其優先順序，把更難的未解決軌跡推到訓練前臺。模型越強，RL 智慧體就得挖越深的 bug，兩者互相逼迫、螺旋上升。相比繼續被動堆示範資料，PROWL 更強調主動生成高價值失敗樣本。團隊在 Minecraft 的 MineRL 環境中驗證了 PROWL。論文顯示，在 300 條人類操作的留出片段上，PROWL 相比預訓練基線將動作跟隨誤差（AFS-EPE）降低了 12.6%，在最難的前 10% 片段上降幅擴大到 20.9%。具體表現包括：更少出現預測錯方向或無視操控的情況、消除旋轉接縫和顏色條紋等視覺瑕疵、準星在鏡頭移動時保持穩定，甚至面對 RL 智慧體發現的 180° 急轉身等訓練資料外的極端動作，PROWL 仍能穩定跟隨。 Odyssey 由前 Cruise 產品副總裁 Oliver Cameron（CEO）和前 Wayve 技術副總裁 Jeff Hawke（CTO）聯合創立，2026 年 2 月宣佈獲得英偉達風投部門 NVentures 和 Samsung Next 投資，既有投資方包括 GV、EQT、Air Street Capital 等。公司此前已釋出 Odyssey-2 系列世界模型，論文已公開。 [BlockBeats]