位元組跳動開源Cola DLM:用擴散模型重新定義文字生成

MMetaEra
5 月 16 日(UTC+8),據動察 Beating 監測,位元組跳動 Seed 團隊開源 Cola DLM。這是一套連續潛在擴散語言模型,試圖繞開大語言模型按 token 從左到右逐個生成的固定路徑,把文字生成改成先組織高層語義、再落回具體文字。 Cola DLM 的核心是 Text VAE + block-causal DiT。Text VAE 先把離散文字對映到連續潛在空間,block-causal DiT 再通過 Flow Matching 學習潛在先驗,最後由條件解碼器把潛在變數還原成文字。擴散過程處理的是潛在語義表示,不是直接在 token 層面反覆去噪。 本次開源版本屬於 2B 級模型,具體為約 23 億總引數,其中核心 DiT 為 18 億引數,另含 5 億引數 VAE。在 LAMBADA、MMLU、OBQA、HellaSwag、RACE、SIQA、SQuAD、Story Cloze 等 8 項評測中,論文稱其在統一生成式評測協議下已具備與同規模 AR / LLaDA 基線競爭的 scaling 表現,並在最終平均分上達到最好結果。 不過目前仍是研究型 checkpoint,不是直接可用的對話模型。官方說明該模型沒有經過指令微調和 RLHF,主要用途是研究連續潛在擴散如何用於文字生成。論文還展示了向文字影象統一建模擴充套件的初步實驗,但本次開源倉庫只包含文字管線。 [BlockBeats]