阿里PAI開源AgenticQwen小模型:憑「雙資料飛輪」讓8B效能逼近235B

MMetaEra
4 月 27 日(UTC+8),阿里 PAI 團隊釋出並開源了專為工業級工具呼叫設計的小型智慧體語言模型 AgenticQwen,包含 8B 和 30B-A3B 兩個版本。該系列模型通過創新的「雙資料飛輪」強化學習框架訓練,在大幅降低推理成本的同時,實現了接近千億引數大模型的智慧體(Agent)能力。 核心機制在於其「雙資料飛輪」訓練法。傳統的合成資料容易同質化導致模型效能觸頂,AgenticQwen 對此引入了兩個飛輪:推理飛輪會從模型的錯題中自動生成更難的變體;智慧體飛輪則根據模型的執行軌跡,將簡單的線性工作流(如單一的訂票流程)擴充套件為包含約束、拒絕和對抗條件的多分支行為樹,模擬真實的複雜決策場景。 評測顯示,AgenticQwen-8B 在真實工具環境基準(如 TAU-2 和 BFCL-V4)中平均得分 47.4,遠超基礎版 Qwen3-8B(23.8),逼近 Qwen3-235B(52.0)。AgenticQwen-30B-A3B(僅啟用 3B 引數)得分達 50.2。 目前該模型已在內部類似 Manus 的生產系統中部署,大幅縮小了與 235B 大模型的差距(端到端推理時間更短),不過論文也坦言,受限於 40K 的原生上下文長度,小模型在深層搜尋任務上仍有侷限。 [BlockBeats]