階躍上線StepAudio2.5ASR:引入MTP機制提速,32K視窗根治轉寫斷片
MMetaEra
4 月 24 日(UTC+8),據動察 Beating 監測,階躍星辰釋出新一代自動語音識別模型 StepAudio 2.5 ASR,目前已全量上線其開放平臺。該版本率先將大語言模型的多 Token 預測(MTP)技術引入語音識別領域,在大幅提升推理速度的同時,複用大模型 32K 上下文視窗,打破了傳統長音訊轉寫需要切片拼接的限制。
傳統語音識別受限於自迴歸機制,必須逐個 Token 輸出。StepAudio 2.5 ASR 移植了 Step 3.5 Flash 同款的 ASR+MTP-5 深度融合架構,一次預測多個候選 Token 並並行驗證。官方稱該架構使模型推理吞吐量提升 400%、時延降低 60%、推理成本直降 80%,推理峰值達 500 tokens/s。
針對行業內普遍採用「切片-轉寫-拼接」方案導致的上下文斷裂問題(如轉寫到後半段會忘記開頭的背景),新模型通過直接複用 32K 上下文視窗,支援端到端單次讀入最長 30 分鐘完整音訊。在 30 分鐘滿載輸入測試中,模型未出現隨時間推移精度衰減的情況。其在 LibriSpeech 等中英文 10 個權威開源測試集上的綜合錯誤率均低於競品。
[ME News]