Sakana Fugu與Fable 5跑分對比遭質疑,測試腳手架差異可致10-20分偏差
MMetaEra
日本 AI 初創公司 Sakana AI 研發的多智慧體協同系統 Fugu Ultra 宣稱在科學推理與程式設計等多項基準測試中擊敗 Anthropic 旗艦模型 Fable 5,但跑分結論遭到社群普遍質疑。
批評指出,在非統一考場下對比自測資料並不客觀。測試跑分高度依賴於執行腳手架(Scaffold/Harness),不同腳手架帶來的跑分偏差可達 10 到 20 分,這使得所謂的「超越」在很大程度上只是系統工程調優的產物,而非底層模型能力的跨代超越。
獨立的評測資料表明,圍繞大模型構建的智慧體執行腳手架對最終得分影響巨大。在同一個 Claude Opus 4.5 模型下,僅更換三款不同的開源腳手架,在 SWE-bench Pro 基準測試中的修復率就會出現 50.2% 至 55.4% 的波動。第三方測試機構 Scale AI 的分析進一步證實,提示詞模板、嘗試次數上限、上下文留存管理以及工具呼叫整合等執行策略,足以導致同一組模型權重產生 10 到 20 分的跑分偏差。
由於 Sakana AI 和 Anthropic 公佈的資料均基於各自專為自家系統調優的閉源腳手架(Vendor Scaffold),而未在標準化的獨立第三方環境(如 Scale SEAL)下進行統一測試,資料並不能真實反映出兩款模型底層能力的強弱。
[BlockBeats]