位元組跳動開源Cola DLM：用擴散模型重新定義文字生成

MMetaEra

2026年05月16日 02:11

5 月 16 日（UTC+8），據動察 Beating 監測，位元組跳動 Seed 團隊開源 Cola DLM。這是一套連續潛在擴散語言模型，試圖繞開大語言模型按 token 從左到右逐個生成的固定路徑，把文字生成改成先組織高層語義、再落回具體文字。 Cola DLM 的核心是 Text VAE + block-causal DiT。Text VAE 先把離散文字對映到連續潛在空間，block-causal DiT 再通過 Flow Matching 學習潛在先驗，最後由條件解碼器把潛在變數還原成文字。擴散過程處理的是潛在語義表示，不是直接在 token 層面反覆去噪。本次開源版本屬於 2B 級模型，具體為約 23 億總引數，其中核心 DiT 為 18 億引數，另含 5 億引數 VAE。在 LAMBADA、MMLU、OBQA、HellaSwag、RACE、SIQA、SQuAD、Story Cloze 等 8 項評測中，論文稱其在統一生成式評測協議下已具備與同規模 AR / LLaDA 基線競爭的 scaling 表現，並在最終平均分上達到最好結果。不過目前仍是研究型 checkpoint，不是直接可用的對話模型。官方說明該模型沒有經過指令微調和 RLHF，主要用途是研究連續潛在擴散如何用於文字生成。論文還展示了向文字影象統一建模擴充套件的初步實驗，但本次開源倉庫只包含文字管線。 [BlockBeats]