xAI開放Grok STT與TTS音訊API，STT整體詞錯率壓到6.9%

律律动

2026年04月18日 03:08

xAI 上線兩個獨立音訊 API：Grok Speech to Text 和 Grok Text to Speech。兩者來自支撐 Grok Voice、特斯拉車載系統和 Starlink 客服的同一套音訊棧，此次以獨立 endpoint 形式開放，開發者可直接接入語音代理、實時轉錄、無障礙工具和播客等應用。 STT 提供兩種模式。REST API 用於對大音訊檔案批量轉錄，毫秒級返回；WebSocket API 面向實時語音流。附帶能力包括詞級時間戳、說話人分離（diarization）、多通道分別識別，以及 Inverse Text Normalization，即把口語裡的數字、日期、貨幣自動整形為規範的結構化文字。語種覆蓋 25 種以上，可在對話中無縫切換。 xAI 同時公佈一組詞錯率（WER，數值越低越好）對比：整體場景 Grok 6.9%，ElevenLabs 9.0%，Deepgram 11.0%，AssemblyAI 12.9%；「電話通話實體識別」差距被拉得更大，Grok 5.0%，對應三家分別為 12.0%、13.5%、21.3%。會議、視訊播客、電話三類常見業務場景下 Grok 也都小幅領先。這組數字由 xAI 自行測試公佈，尚無第三方複測。定價上，STT 批處理 0.10 美元/小時、流式 0.20 美元/小時；TTS 為 4.20 美元/100 萬字元。TTS 支援用內聯 Speech Tags 控制情感和韻律，例如 `[laugh]`、`[sigh]`、`[whisper]`。 [動察 Beating]