「華為晶片拖慢DeepSeek V4上線」？同一核心通吃英偉達昇騰還加速近2倍

律律动

2026年04月24日 05:16

DeepSeek V4 釋出前，社群廣泛流傳一種猜測：V4 上線時間晚於預期，是因為模型從英偉達遷移到華為昇騰平臺遭遇適配困難。V4 技術報告雖未直接回應這一傳聞，但披露的效能資料與之明顯矛盾。報告顯示，V4 的細粒度專家分割槽方案（Fine-Grained EP Scheme）已在 NVIDIA GPU 和華為昇騰 NPU 雙平臺完成部署驗證，常規推理負載加速 1.50 至 1.73 倍，RL rollout 和高速 Agent 服務等延遲敏感場景最高加速 1.96 倍。團隊已將 CUDA 版本核心 MegaMoE 作為 DeepGEMM 的一部分開源。換言之，V4 在兩套硬體上都跑出了接近理論上限的效率，跨平臺適配並未造成效能折損。 [動察 Beating]