小米發布可重構整合式世界模型框架，打破主流基準測試性能紀錄

BBlockBeats

2026年05月26日 03:42

小米汽車正式發布了「小米智駕世界模型」（Xiaomi EV World Model），這是一套全新的輔助駕駛世界建模框架。該模型首次在內部實現了3D重建與視頻生成模組的深度耦合。傳統的自動駕駛模擬中，重建與生成通常彼此分離：重建模組雖可還原場景，卻無法預測動態變化；生成模組雖能預測未來，但在長時間序列下易出現形變與漂移。小米團隊提出「JointWM」架構，以3D幾何結構作為物理骨架錨定場景，再透過生成模組補全視覺細節並預測未觀測區域。此架構已在Waymo與nuScenes等主流基準測試中刷新多項性能紀錄。具體而言，在機制設計上，重建模組「WorldRec」摒棄傳統的逐像素（per-pixel）範式，轉而採用稀疏3D查詢點（sparse 3D query points）進行場景表達；並逐步融合為跨視角的4D高斯空間骨架，實現對10秒視頻的10秒級快速重建。基於重建模組所提供的幾何先驗（geometric priors），生成模組「WorldGen」則受限於骨架的物理邊界，僅需負責生成合理的光照與紋理。針對未來幀及視野盲區等內容，WorldGen透過兩階段時序訓練（two-stage temporal training）與分佈匹配蒸餾（distribution-matching distillation）機制，完成符合物理規律的預測。整套架構在H20 GPU上達成單視角生成速度0.19秒、三視角0.46秒，支援最長達1分鐘的視頻生成。該方案在Waymo重建精度測試中取得28.48 PSNR分數，並在nuScenes零樣本泛化（zero-shot generalization）任務中持續保持領先地位。在生成效率方面，其速度為自迴歸基線模型Epona的5.6倍，且在同類算法中，其時空一致性（spatiotemporal consistency）表現亦位居前列。目前，該研究成果已落地應用於小米汽車三大核心場景：一是為感知模型訓練提供逾10萬段高品質合成數據；二是構建高度逼真的閉環仿真環境，重現長尾道路條件；三是推出「輔助駕駛學院」，為用戶操作提供生成式視頻指導。 [感知節奏]