Sakana Fugu 與 Fable 5 基準測試比較遭質疑，測試框架差異可能導致 10–20 分的偏差

BBlockBeats

2026年06月26日 09:33

日本的 AI 新創公司 Sakana AI 開發了一個名為 Fugu Ultra 的多代理協作系統，該系統聲稱在科學推理和程式設計等各種基準測試中，其表現優於 Anthropic 的旗艦模型 Fable 5。然而，其評分結果已受到社群的廣泛質疑。批評者指出，在非統一的考試環境中比較自我測試數據並不客觀。測試分數高度依賴於運行腳手架/框架，而不同腳手架造成的得分偏差可能高達 10 到 20 分。這意味著所謂的「超越」很大程度上是系統工程優化的產物，而非底層模型能力真正的世代飛躍。獨立評估數據顯示，圍繞大型模型構建的智慧代理運行框架對最終分數有顯著影響。在相同的 Claude Opus 4.5 模型下，僅僅改變三個不同的開源框架，就可能導致 SWE-bench Pro 基準測試中的修復率在 50.2% 到 55.4% 之間波動。第三方測試機構 Scale AI 的分析進一步表明，諸如提示模板、嘗試次數限制、上下文保留管理和工具調用整合等操作策略，足以對同一組模型權重造成 10 到 20 分的得分偏差。由於 Sakana AI 和 Anthropic 發布的數據是基於各自針對自身系統進行優化的閉源供應商腳手架，並且沒有在標準化的獨立第三方環境（如 Scale SEAL）中進行統一測試，因此這些數據並不能準確反映兩個模型底層能力的強弱。 [Sentinel Beat]