社群成員系統性測試 Qwen3.5 全系列工具呼叫能力

MMetaEra
3 月 26 日(UTC+8),近日,阿里巴巴通義千問官方賬號感謝社群成員 Steve 對 Qwen3.5 全系列模型的工具呼叫能力進行了系統性測試。此次測試旨在探究“哪些本地模型能真正處理工具呼叫?”的問題。 測試者為此構建了一個框架,覆蓋了15個場景和12種工具,使用了模擬響應,並將溫度引數設為0,且未進行結果篩選。測試範圍涵蓋了從0.8B到397B的所有Qwen3.5尺寸模型。 此外,測試者提到,在蒸餾測試之後,應部分使用者要求也進行了相關測試,並附上了測試結果的連結。 [InFoQ]