月之暗面與清華新論文:LLM預填充可跨資料中心,1T模型吞吐升54%

MMetaEra
4 月 18 日(UTC+8),月之暗面(Moonshot AI)與清華大學 4 月 16 日在 arXiv 掛出新論文《Prefill-as-a-Service》,提出讓大模型推理的預填充階段(prefill)跨資料中心執行。 大模型推理分兩步:prefill 先把輸入一次性讀進來、生成一份 KV 快取;decode 再根據這份快取逐字吐出結果。兩步需要的硬體特性完全不同,prefill 吃算力,decode 吃視訊記憶體頻寬。業界主流做法是把兩步拆到不同機器上(PD 分離),但這要求兩邊在同一個資料中心裡用 RDMA 互聯,因為密集 attention 模型的 KV 快取每秒幾十 Gbps 地吐,一旦傳慢 GPU 就空轉。 轉折來自新一代 hybrid attention 模型。論文實測 Kimi Linear、MiMo-V2-Flash、Ring-2.5-1T 等模型通過少量完整 attention 層加大量線性層的組合,把 KV 快取吞吐量砍掉了約一個數量級,Ring-2.5-1T 的綜合壓縮比達到 36 倍。這時 KV 快取可以從 RDMA 專網搬到普通乙太網上傳。 PrfaaS 的具體做法:組建獨立的「預填充叢集」,只把長上下文、未命中字首快取的請求路由過去,短請求留在本地 PD 叢集;預填充完成後通過乙太網把 KV 快取回傳本地叢集做 decode。配套引入長度閾值路由、頻寬感知排程器和混合字首快取池。論文用內部 1T 引數 hybrid 模型(基於 Kimi Linear 架構)做了一組實測,整體服務吞吐比同構 PD 部署高 54%,比樸素異構方案高 32%,每臺機器只佔適中的跨資料中心頻寬。 [動察 Beating]