小米釋出重建生成一體化世界模型框架，重新整理主流基準效能紀錄

律律动

2026年05月26日 03:42

小米汽車正式釋出 Xiaomi EV World Model 輔助駕駛世界模型全新框架，首次在內部實現三維重建與視訊生成模組的深度耦合。在自動駕駛模擬中，傳統技術往往將重建與生成割裂。重建模組能還原場景但無法預測變化，生成模組雖能預測未來但長時序下容易失真漂移。團隊提出 JointWM 架構，以三維幾何結構作為物理骨架錨定場景，再通過生成模組補全視覺細節並預測未觀測區域，在 Waymo 和 nuScenes 等主流基準中重新整理多項最佳效能紀錄。具體機制上，重建模組 WorldRec 捨棄傳統逐畫素正規化，改用稀疏三維查詢點進行場景表徵，增量融合為跨視角 4D Gaussian 空間骨架，實現 10 秒快速重建 10 秒視訊。基於重建模組提供的幾何先驗，生成模組 WorldGen 受限於骨架物理邊界，只負責生成合理的光影與紋理。對於未來幀與視野盲區等邊界之外的內容，生成模組通過兩階段時序訓練與分佈匹配蒸餾機制進行物理預測。整個架構在 H20 GPU 上實現單視角 0.19 秒、三視角 0.46 秒的生成速度，並支援最長 1 分鐘的視訊生成。這套方案在 Waymo 重建精度測試中取得 28.48 PSNR 成績，並在 nuScenes 零樣本泛化中保持領先。在生成效率上，方案比自迴歸基線 Epona 快 5.6 倍，時空連貫度在同類演算法中位居前列。目前，研究成果已在小米汽車三大場景落地，包括交付超 10 萬段高質量合成資料用於感知模型訓練、構建高逼真閉環模擬環境復現長尾路況，以及上線輔助駕駛學堂以生成式視訊指導使用者操作。 [動察 Beating]