Sakana Fugu與Fable 5跑分對比遭質疑，測試腳手架差異可致10-20分偏差

MMetaEra

2026年06月26日 09:33

日本 AI 初創公司 Sakana AI 研發的多智慧體協同系統 Fugu Ultra 宣稱在科學推理與程式設計等多項基準測試中擊敗 Anthropic 旗艦模型 Fable 5，但跑分結論遭到社群普遍質疑。批評指出，在非統一考場下對比自測資料並不客觀。測試跑分高度依賴於執行腳手架（Scaffold/Harness），不同腳手架帶來的跑分偏差可達 10 到 20 分，這使得所謂的「超越」在很大程度上只是系統工程調優的產物，而非底層模型能力的跨代超越。獨立的評測資料表明，圍繞大模型構建的智慧體執行腳手架對最終得分影響巨大。在同一個 Claude Opus 4.5 模型下，僅更換三款不同的開源腳手架，在 SWE-bench Pro 基準測試中的修復率就會出現 50.2% 至 55.4% 的波動。第三方測試機構 Scale AI 的分析進一步證實，提示詞模板、嘗試次數上限、上下文留存管理以及工具呼叫整合等執行策略，足以導致同一組模型權重產生 10 到 20 分的跑分偏差。由於 Sakana AI 和 Anthropic 公佈的資料均基於各自專為自家系統調優的閉源腳手架（Vendor Scaffold），而未在標準化的獨立第三方環境（如 Scale SEAL）下進行統一測試，資料並不能真實反映出兩款模型底層能力的強弱。 [BlockBeats]