小紅書(Xiaohongshu)已將端到端神經文字轉語音(TTS)模型 dots.tts 開源,支援零樣本語音克隆。

BBlockBeats
RedX hi lab 開源了一個擁有 20 億參數的端對端自迴歸文字轉語音 (TTS) 模型,名為 dots.tts,並根據 Apache 2.0 授權發布了完整的推理和微調程式碼。公開發布的權重包括基礎預訓練版本、經過自我修正對齊 (SCA) 微調的版本,以及低延遲推理蒸餾版本。 與依賴離散編碼器代幣進行音訊編碼和解碼的傳統 TTS 架構(例如 VALL-E、CosyVoice、ChatTTS 等)不同,dots.tts 實現了完全連續的端對端自迴歸流式架構,在整個流程中完全避免使用任何離散代幣。dots.tts 結合了從 AudioVAE 提取的 48 kHz 取樣率的連續特徵,以及一個語義編碼器、一個基礎語言模型(從 Qwen2.5-1.5B-Base 初始化,直接處理 BPE 文字,無需拼音輸入),以及一個自迴歸流式聲學頭,用於預測連續的潛在變數,然後由生成器將其重建成音訊。 透過直接預測連續特徵,dots.tts 繞過了離散量化造成的任何音訊品質損失,保留了發音細節、音色相似度和表達性情感。dots.tts 在約 150 萬小時的語音數據上進行了預訓練。 在 Seed-TTS-Eval 評估中,dots.tts 在中文、英文和中文困難測試集上的詞錯誤率 (WER) 分別為 0.94% / 1.30% / 6.60%,相似度分數 (SIM) 分別為 81.0 / 77.1 / 79.5,均達到了最先進的開源水平。在針對 24 種語言的 MiniMax 多語言基準測試中,平均說話人相似度達到了 83.9。RedX 在 Hugging Face 上提供了一個 Gradio 體驗空間,供用戶在線測試零樣本語音克隆。 [感知卓越]