SemiAnalysis實測:GPT-5.5回到前沿,但OpenAI悄悄藏了一項被Opus壓過的成績

律动
半導體與 AI 分析機構 SemiAnalysis 釋出程式設計助手橫向評測,覆蓋 GPT-5.5、Opus 4.7 和 DeepSeek V4。核心結論顯示,GPT-5.5 是 OpenAI 半年來首次重返前沿的程式設計模型,SemiAnalysis 的工程師開始在 Codex 和 Claude Code 之間切換,此前幾乎全員只用 Claude。GPT-5.5 基於代號「Spud」的新預訓練,是 OpenAI 繼 GPT-4.5 之後首次擴大預訓練規模。 實測中形成了分工:Claude 做新專案規劃和初步搭建,Codex 做推理密集的 bug 修復。Codex 在資料結構理解和邏輯推理上更強,但不擅長推斷使用者的模糊意圖。同一個儀表盤任務,Claude 自動復刻了參考頁面佈局但資料大量編造,Codex 跳過了佈局但資料準確得多。 文章揭露了一個基準測試的操作細節:OpenAI 今年 2 月寫部落格呼籲行業改用 SWE-bench Pro 作為程式設計基準的新標準,但 GPT-5.5 的公告卻換用了一個名為「Expert-SWE」的新基準。原因藏在公告最底部的小字裡:GPT-5.5 在 SWE-bench Pro 上被 Opus 4.7 超過,更遠低於 Anthropic 尚未公開的 Mythos(77.8%)。 Opus 4.7 方面,Anthropic 在釋出一週後發了 postmortem(事後分析報告),承認 Claude Code 在 3 月至 4 月間存在三個 bug,持續數週,影響幾乎所有使用者,此前多位工程師反映 4.6 效能下降但被當作主觀感受。此外,4.7 的新 tokenizer 會導致 token 用量增加最多 35%,Anthropic 自己承認這一點,相當於隱性漲價。 DeepSeek V4 被評為「緊跟前沿但非領先」,將是閉源模型的最低成本替代品。文章還稱「Claude 在中文寫作的高難度任務上仍然壓過 DeepSeek V4 Pro」,並評論「Claude 用對方的語言贏了中國模型」。 文章提出一個關鍵概念:衡量模型定價應看「每任務成本」而非「每 token 成本」。GPT-5.5 單價是 GPT-5.4 的 2 倍(輸入 5 美元、輸出 30 美元 / 百萬 token),但用更少的 token 完成同一任務,實際成本未必更高。SemiAnalysis 初步資料顯示 Codex 的輸入輸出比為 80:1,低於 Claude Code 的 100:1。 [動察 Beating]