小紅書（Xiaohongshu）已將端到端神經文字轉語音（TTS）模型 dots.tts 開源，支援零樣本語音克隆。

BBlockBeats

2026年06月07日 03:38

RedX hi lab 開源了一個擁有 20 億參數的端對端自迴歸文字轉語音 (TTS) 模型，名為 dots.tts，並根據 Apache 2.0 授權發布了完整的推理和微調程式碼。公開發布的權重包括基礎預訓練版本、經過自我修正對齊 (SCA) 微調的版本，以及低延遲推理蒸餾版本。與依賴離散編碼器代幣進行音訊編碼和解碼的傳統 TTS 架構（例如 VALL-E、CosyVoice、ChatTTS 等）不同，dots.tts 實現了完全連續的端對端自迴歸流式架構，在整個流程中完全避免使用任何離散代幣。dots.tts 結合了從 AudioVAE 提取的 48 kHz 取樣率的連續特徵，以及一個語義編碼器、一個基礎語言模型（從 Qwen2.5-1.5B-Base 初始化，直接處理 BPE 文字，無需拼音輸入），以及一個自迴歸流式聲學頭，用於預測連續的潛在變數，然後由生成器將其重建成音訊。透過直接預測連續特徵，dots.tts 繞過了離散量化造成的任何音訊品質損失，保留了發音細節、音色相似度和表達性情感。dots.tts 在約 150 萬小時的語音數據上進行了預訓練。在 Seed-TTS-Eval 評估中，dots.tts 在中文、英文和中文困難測試集上的詞錯誤率 (WER) 分別為 0.94% / 1.30% / 6.60%，相似度分數 (SIM) 分別為 81.0 / 77.1 / 79.5，均達到了最先進的開源水平。在針對 24 種語言的 MiniMax 多語言基準測試中，平均說話人相似度達到了 83.9。RedX 在 Hugging Face 上提供了一個 Gradio 體驗空間，供用戶在線測試零樣本語音克隆。 [感知卓越]