小米釋出重建生成一體化世界模型框架,重新整理主流基準效能紀錄

律动
小米汽車正式釋出 Xiaomi EV World Model 輔助駕駛世界模型全新框架,首次在內部實現三維重建與視訊生成模組的深度耦合。在自動駕駛模擬中,傳統技術往往將重建與生成割裂。重建模組能還原場景但無法預測變化,生成模組雖能預測未來但長時序下容易失真漂移。 團隊提出 JointWM 架構,以三維幾何結構作為物理骨架錨定場景,再通過生成模組補全視覺細節並預測未觀測區域,在 Waymo 和 nuScenes 等主流基準中重新整理多項最佳效能紀錄。 具體機制上,重建模組 WorldRec 捨棄傳統逐畫素正規化,改用稀疏三維查詢點進行場景表徵,增量融合為跨視角 4D Gaussian 空間骨架,實現 10 秒快速重建 10 秒視訊。基於重建模組提供的幾何先驗,生成模組 WorldGen 受限於骨架物理邊界,只負責生成合理的光影與紋理。對於未來幀與視野盲區等邊界之外的內容,生成模組通過兩階段時序訓練與分佈匹配蒸餾機制進行物理預測。 整個架構在 H20 GPU 上實現單視角 0.19 秒、三視角 0.46 秒的生成速度,並支援最長 1 分鐘的視訊生成。這套方案在 Waymo 重建精度測試中取得 28.48 PSNR 成績,並在 nuScenes 零樣本泛化中保持領先。在生成效率上,方案比自迴歸基線 Epona 快 5.6 倍,時空連貫度在同類演算法中位居前列。 目前,研究成果已在小米汽車三大場景落地,包括交付超 10 萬段高質量合成資料用於感知模型訓練、構建高逼真閉環模擬環境復現長尾路況,以及上線輔助駕駛學堂以生成式視訊指導使用者操作。 [動察 Beating]