Epoch AI釋出Claude偏科圖譜:寫程式碼長板一直在,Opus 4.6和4.7已補齊數學短板
MMetaEra
5 月 16 日(UTC+8),據動察 Beating 監測,Epoch AI 釋出領域特定能力指數(Domain-specific ECI)最新分析,揭示了 Anthropic 旗下 Claude 系列模型相對其綜合能力一直表現為寫程式碼強、數學弱。不過最新資料顯示,這一偏科現象正在快速緩解。
根據測算,在過往多代模型中,Claude 在軟體工程基準測試(SWE-ECI)上的表現一直穩定高於其綜合得分,而在數學基準測試(Math-ECI)上長期存在落差。最新發布的 Opus 4.6 和 4.7 模型已將數學與綜合得分的差距縮小至 1 分以內,補齊了此前的短板。
ECI 的測算機制是比較各大模型之間的相對錶現,因此它直接反映特定任務對 AI 的平均難度,而非對人類的難度。
[BlockBeats]