StepStar Releases StepAudio 2.5 ASR Automatic Speech Recognition Model: Inference Speed Increases by 400%, Pricing Plummets by 90%

ITHome

IT之家

Apr 24, 2026, 09:19 AM

IT之家 4 月 24 日消息，阶跃星辰今日宣布推出新一代自动语音识别模型 StepAudio 2.5 ASR。该模型的核心突破在于率先将大语言模型的推理加速技术引入语音识别领域，在推理速度与转写精度两个维度均有显著提升，主要面向会议转写、语音交互、输入法、媒体内容处理、长音频识别等场景。传统语音识别模型受限于自回归生成机制，需要逐个 Token 依次输出，效率较低。StepAudio 2.5 ASR 采用 ASR+MTP-5 深度融合架构，将此前应用在 Step 3.5 Flash 大模型上的 MTP（IT之家注：多 Token 预测）技术移植至语音识别领域。该技术使模型能够一次预测多个候选 Token，并通过并行验证机制快速确认结果，打破了传统自回归机制逐个输出的效率瓶颈。实测数据显示，模型推理速度提升 400%、时延降低 60%，推理峰值达 500 tokens/s，推理成本直降 80%。以 5 分钟左右的音视频为例，几乎可以实现即时转写。在转写精度方面，StepAudio 2.5 ASR 在覆盖新闻播报、会议访谈及强噪声环境的多个中英文权威测试集上，综合转写精度达到