社群成員系統性測試 Qwen3.5 全系列工具呼叫能力

MMetaEra

2026年03月26日 09:24

3 月 26 日（UTC+8），近日，阿里巴巴通義千問官方賬號感謝社群成員 Steve 對 Qwen3.5 全系列模型的工具呼叫能力進行了系統性測試。此次測試旨在探究“哪些本地模型能真正處理工具呼叫？”的問題。測試者為此構建了一個框架，覆蓋了15個場景和12種工具，使用了模擬響應，並將溫度引數設為0，且未進行結果篩選。測試範圍涵蓋了從0.8B到397B的所有Qwen3.5尺寸模型。此外，測試者提到，在蒸餾測試之後，應部分使用者要求也進行了相關測試，並附上了測試結果的連結。 [InFoQ]