Odyssey用強化學習給世界模型挑錯,讓它自己生成訓練資料

MMetaEra
5 月 13 日(UTC+8),世界模型公司 Odyssey 釋出 PROWL(Prioritized Regret-Driven Optimization for World Model Learning),一個用強化學習驅動的對抗式訓練框架。核心做法是把遊戲環境當訓練場,讓一個受行為約束的 RL 智慧體主動尋找世界模型在幾何、運動、視覺一致性和動作響應上的失敗軌跡,再把這些軌跡送回模型繼續訓練。 這套機制的關鍵是形成可擴充套件的反饋閉環。PROWL 設計了一個優先順序對抗軌跡緩衝區(PAT),當模型學會處理簡單失敗案例後,PAT 自動降低其優先順序,把更難的未解決軌跡推到訓練前臺。模型越強,RL 智慧體就得挖越深的 bug,兩者互相逼迫、螺旋上升。相比繼續被動堆示範資料,PROWL 更強調主動生成高價值失敗樣本。 團隊在 Minecraft 的 MineRL 環境中驗證了 PROWL。論文顯示,在 300 條人類操作的留出片段上,PROWL 相比預訓練基線將動作跟隨誤差(AFS-EPE)降低了 12.6%,在最難的前 10% 片段上降幅擴大到 20.9%。具體表現包括:更少出現預測錯方向或無視操控的情況、消除旋轉接縫和顏色條紋等視覺瑕疵、準星在鏡頭移動時保持穩定,甚至面對 RL 智慧體發現的 180° 急轉身等訓練資料外的極端動作,PROWL 仍能穩定跟隨。 Odyssey 由前 Cruise 產品副總裁 Oliver Cameron(CEO)和前 Wayve 技術副總裁 Jeff Hawke(CTO)聯合創立,2026 年 2 月宣佈獲得英偉達風投部門 NVentures 和 Samsung Next 投資,既有投資方包括 GV、EQT、Air Street Capital 等。公司此前已釋出 Odyssey-2 系列世界模型,論文已公開。 [BlockBeats]