「華為晶片拖慢DeepSeek V4上線」?同一核心通吃英偉達昇騰還加速近2倍
律律动
DeepSeek V4 釋出前,社群廣泛流傳一種猜測:V4 上線時間晚於預期,是因為模型從英偉達遷移到華為昇騰平臺遭遇適配困難。V4 技術報告雖未直接回應這一傳聞,但披露的效能資料與之明顯矛盾。
報告顯示,V4 的細粒度專家分割槽方案(Fine-Grained EP Scheme)已在 NVIDIA GPU 和華為昇騰 NPU 雙平臺完成部署驗證,常規推理負載加速 1.50 至 1.73 倍,RL rollout 和高速 Agent 服務等延遲敏感場景最高加速 1.96 倍。
團隊已將 CUDA 版本核心 MegaMoE 作為 DeepGEMM 的一部分開源。換言之,V4 在兩套硬體上都跑出了接近理論上限的效率,跨平臺適配並未造成效能折損。
[動察 Beating]