小米發布可重構整合式世界模型框架,打破主流基準測試性能紀錄
BBlockBeats
小米汽車正式發布了「小米智駕世界模型」(Xiaomi EV World Model),這是一套全新的輔助駕駛世界建模框架。該模型首次在內部實現了3D重建與視頻生成模組的深度耦合。
傳統的自動駕駛模擬中,重建與生成通常彼此分離:重建模組雖可還原場景,卻無法預測動態變化;生成模組雖能預測未來,但在長時間序列下易出現形變與漂移。小米團隊提出「JointWM」架構,以3D幾何結構作為物理骨架錨定場景,再透過生成模組補全視覺細節並預測未觀測區域。此架構已在Waymo與nuScenes等主流基準測試中刷新多項性能紀錄。
具體而言,在機制設計上,重建模組「WorldRec」摒棄傳統的逐像素(per-pixel)範式,轉而採用稀疏3D查詢點(sparse 3D query points)進行場景表達;並逐步融合為跨視角的4D高斯空間骨架,實現對10秒視頻的10秒級快速重建。基於重建模組所提供的幾何先驗(geometric priors),生成模組「WorldGen」則受限於骨架的物理邊界,僅需負責生成合理的光照與紋理。針對未來幀及視野盲區等內容,WorldGen透過兩階段時序訓練(two-stage temporal training)與分佈匹配蒸餾(distribution-matching distillation)機制,完成符合物理規律的預測。
整套架構在H20 GPU上達成單視角生成速度0.19秒、三視角0.46秒,支援最長達1分鐘的視頻生成。該方案在Waymo重建精度測試中取得28.48 PSNR分數,並在nuScenes零樣本泛化(zero-shot generalization)任務中持續保持領先地位。在生成效率方面,其速度為自迴歸基線模型Epona的5.6倍,且在同類算法中,其時空一致性(spatiotemporal consistency)表現亦位居前列。
目前,該研究成果已落地應用於小米汽車三大核心場景:一是為感知模型訓練提供逾10萬段高品質合成數據;二是構建高度逼真的閉環仿真環境,重現長尾道路條件;三是推出「輔助駕駛學院」,為用戶操作提供生成式視頻指導。
[感知節奏]