階躍上線StepAudio2.5ASR：引入MTP機制提速，32K視窗根治轉寫斷片

MMetaEra

2026年04月24日 06:37

4 月 24 日（UTC+8），據動察 Beating 監測，階躍星辰釋出新一代自動語音識別模型 StepAudio 2.5 ASR，目前已全量上線其開放平臺。該版本率先將大語言模型的多 Token 預測（MTP）技術引入語音識別領域，在大幅提升推理速度的同時，複用大模型 32K 上下文視窗，打破了傳統長音訊轉寫需要切片拼接的限制。傳統語音識別受限於自迴歸機制，必須逐個 Token 輸出。StepAudio 2.5 ASR 移植了 Step 3.5 Flash 同款的 ASR+MTP-5 深度融合架構，一次預測多個候選 Token 並並行驗證。官方稱該架構使模型推理吞吐量提升 400%、時延降低 60%、推理成本直降 80%，推理峰值達 500 tokens/s。針對行業內普遍採用「切片-轉寫-拼接」方案導致的上下文斷裂問題（如轉寫到後半段會忘記開頭的背景），新模型通過直接複用 32K 上下文視窗，支援端到端單次讀入最長 30 分鐘完整音訊。在 30 分鐘滿載輸入測試中，模型未出現隨時間推移精度衰減的情況。其在 LibriSpeech 等中英文 10 個權威開源測試集上的綜合錯誤率均低於競品。 [ME News]