Sakana Fugu 與 Fable 5 基準測試比較遭質疑,測試框架差異可能導致 10–20 分的偏差
BBlockBeats
日本的 AI 新創公司 Sakana AI 開發了一個名為 Fugu Ultra 的多代理協作系統,該系統聲稱在科學推理和程式設計等各種基準測試中,其表現優於 Anthropic 的旗艦模型 Fable 5。然而,其評分結果已受到社群的廣泛質疑。
批評者指出,在非統一的考試環境中比較自我測試數據並不客觀。測試分數高度依賴於運行腳手架/框架,而不同腳手架造成的得分偏差可能高達 10 到 20 分。這意味著所謂的「超越」很大程度上是系統工程優化的產物,而非底層模型能力真正的世代飛躍。
獨立評估數據顯示,圍繞大型模型構建的智慧代理運行框架對最終分數有顯著影響。在相同的 Claude Opus 4.5 模型下,僅僅改變三個不同的開源框架,就可能導致 SWE-bench Pro 基準測試中的修復率在 50.2% 到 55.4% 之間波動。
第三方測試機構 Scale AI 的分析進一步表明,諸如提示模板、嘗試次數限制、上下文保留管理和工具調用整合等操作策略,足以對同一組模型權重造成 10 到 20 分的得分偏差。由於 Sakana AI 和 Anthropic 發布的數據是基於各自針對自身系統進行優化的閉源供應商腳手架,並且沒有在標準化的獨立第三方環境(如 Scale SEAL)中進行統一測試,因此這些數據並不能準確反映兩個模型底層能力的強弱。
[Sentinel Beat]