SemiAnalysis實測：GPT-5.5回到前沿，但OpenAI悄悄藏了一項被Opus壓過的成績

律律动

2026年04月27日 05:13

半導體與 AI 分析機構 SemiAnalysis 釋出程式設計助手橫向評測，覆蓋 GPT-5.5、Opus 4.7 和 DeepSeek V4。核心結論顯示，GPT-5.5 是 OpenAI 半年來首次重返前沿的程式設計模型，SemiAnalysis 的工程師開始在 Codex 和 Claude Code 之間切換，此前幾乎全員只用 Claude。GPT-5.5 基於代號「Spud」的新預訓練，是 OpenAI 繼 GPT-4.5 之後首次擴大預訓練規模。實測中形成了分工：Claude 做新專案規劃和初步搭建，Codex 做推理密集的 bug 修復。Codex 在資料結構理解和邏輯推理上更強，但不擅長推斷使用者的模糊意圖。同一個儀表盤任務，Claude 自動復刻了參考頁面佈局但資料大量編造，Codex 跳過了佈局但資料準確得多。文章揭露了一個基準測試的操作細節：OpenAI 今年 2 月寫部落格呼籲行業改用 SWE-bench Pro 作為程式設計基準的新標準，但 GPT-5.5 的公告卻換用了一個名為「Expert-SWE」的新基準。原因藏在公告最底部的小字裡：GPT-5.5 在 SWE-bench Pro 上被 Opus 4.7 超過，更遠低於 Anthropic 尚未公開的 Mythos（77.8%）。 Opus 4.7 方面，Anthropic 在釋出一週後發了 postmortem（事後分析報告），承認 Claude Code 在 3 月至 4 月間存在三個 bug，持續數週，影響幾乎所有使用者，此前多位工程師反映 4.6 效能下降但被當作主觀感受。此外，4.7 的新 tokenizer 會導致 token 用量增加最多 35%，Anthropic 自己承認這一點，相當於隱性漲價。 DeepSeek V4 被評為「緊跟前沿但非領先」，將是閉源模型的最低成本替代品。文章還稱「Claude 在中文寫作的高難度任務上仍然壓過 DeepSeek V4 Pro」，並評論「Claude 用對方的語言贏了中國模型」。文章提出一個關鍵概念：衡量模型定價應看「每任務成本」而非「每 token 成本」。GPT-5.5 單價是 GPT-5.4 的 2 倍（輸入 5 美元、輸出 30 美元 / 百萬 token），但用更少的 token 完成同一任務，實際成本未必更高。SemiAnalysis 初步資料顯示 Codex 的輸入輸出比為 80:1，低於 Claude Code 的 100:1。 [動察 Beating]