微軟研究院推出AsgardBench基準,評估具身智慧體互動式規劃能力

MMetaEra
3 月 27 日(UTC+8),微軟研究院近日推出了名為AsgardBench的基準測試,旨在評估具身智慧體的視覺基礎互動式規劃能力。該基準旨在解決現有方法在衡量智慧體於複雜開放世界環境中進行長期、多步驟規劃方面的不足。 其核心是一個名為Asgard的3D虛擬環境,包含豐富的物體、可互動元素以及程式生成的任務。任務要求智慧體通過視覺感知理解目標,並制定物理動作序列。 關鍵創新在於強調“互動式規劃”,智慧體必須通過與環境互動獲取新資訊並調整計劃,以處理部分可觀察性、長期任務依賴和動態變化。AsgardBench提供了超過100個獨特的任務場景,幷包含詳細的評估指標。 研究人員希望藉此推動開發更強大、更接近人類水平的AI規劃系統。 [InFoQ]