月之暗面與清華新論文：LLM預填充可跨資料中心，1T模型吞吐升54%

MMetaEra

2026年04月18日 14:50

4 月 18 日（UTC+8），月之暗面（Moonshot AI）與清華大學 4 月 16 日在 arXiv 掛出新論文《Prefill-as-a-Service》，提出讓大模型推理的預填充階段（prefill）跨資料中心執行。大模型推理分兩步：prefill 先把輸入一次性讀進來、生成一份 KV 快取；decode 再根據這份快取逐字吐出結果。兩步需要的硬體特性完全不同，prefill 吃算力，decode 吃視訊記憶體頻寬。業界主流做法是把兩步拆到不同機器上（PD 分離），但這要求兩邊在同一個資料中心裡用 RDMA 互聯，因為密集 attention 模型的 KV 快取每秒幾十 Gbps 地吐，一旦傳慢 GPU 就空轉。轉折來自新一代 hybrid attention 模型。論文實測 Kimi Linear、MiMo-V2-Flash、Ring-2.5-1T 等模型通過少量完整 attention 層加大量線性層的組合，把 KV 快取吞吐量砍掉了約一個數量級，Ring-2.5-1T 的綜合壓縮比達到 36 倍。這時 KV 快取可以從 RDMA 專網搬到普通乙太網上傳。 PrfaaS 的具體做法：組建獨立的「預填充叢集」，只把長上下文、未命中字首快取的請求路由過去，短請求留在本地 PD 叢集；預填充完成後通過乙太網把 KV 快取回傳本地叢集做 decode。配套引入長度閾值路由、頻寬感知排程器和混合字首快取池。論文用內部 1T 引數 hybrid 模型（基於 Kimi Linear 架構）做了一組實測，整體服務吞吐比同構 PD 部署高 54%，比樸素異構方案高 32%，每臺機器只佔適中的跨資料中心頻寬。 [動察 Beating]