WWW.AWTEY.CN
标签聚合 阶跃

/tag/阶跃

www.ithome.com · 2026-04-24 21:19:21+08:00 · tech

IT之家 4 月 24 日消息,阶跃星辰今日宣布推出新一代自动语音识别模型 StepAudio 2.5 ASR。 该模型的核心突破在于率先将大语言模型的推理加速技术引入语音识别领域,在推理速度与转写精度两个维度均有显著提升,主要面向会议转写、语音交互、输入法、媒体内容处理、长音频识别等场景。 传统语音识别模型受限于自回归生成机制,需要逐个 Token 依次输出,效率较低。StepAudio 2.5 ASR 采用 ASR+MTP-5 深度融合架构,将此前应用在 Step 3.5 Flash 大模型上的 MTP(IT之家注:多 Token 预测)技术移植至语音识别领域。该技术使模型能够一次预测多个候选 Token,并通过并行验证机制快速确认结果,打破了传统自回归机制逐个输出的效率瓶颈。 实测数据显示,模型推理速度提升 400%、时延降低 60%,推理峰值达 500 tokens/s,推理成本直降 80%。以 5 分钟左右的音视频为例,几乎可以实现即时转写。 在转写精度方面,StepAudio 2.5 ASR 在覆盖新闻播报、会议访谈及强噪声环境的多个中英文权威测试集上,综合转写精度达到业内 SOTA 水准。在 LibriSpeech 等中英文 10 个权威开源测试集上的综合错误率均低于竞品。 针对长音频处理这一语音识别领域的长期痛点,行业内通常依赖“切片-转写-拼接”方案,即把音频切成若干小段分别识别再合并,但这种方式容易造成上下文信息割裂 —— 模型在转写后半段内容时,可能已经“忘记”了开头信息。StepAudio 2.5 ASR 复用了大语言模型原生的 32K 上下文窗口能力,支持端到端一次性读入最长 30 分钟的连续音频,无需分段切割。在 30 分钟满载输入测试中,模型没有出现随时间推移精度衰减的情况。 定价方面,StepAudio 2.5 ASR 仅为 0.15 元 / 小时,约为此前 Step ASR 2 的十分之一。目前,该模型已全量上线阶跃星辰开放平台和 Step Plan,开发者可通过官网体验使用。 相关阅读: 《 人人都能是配音导演,阶跃星辰发布语音生成模型 StepAudio 2.5 TTS 》 参考资料: 阶跃星辰开放平台: https://platform.stepfun.com/docs/zh/guides/models/stepaudio-2.5-asr Step Plan: https://platform.stepfun.com/docs/zh/step-plan/integrations/audio-api 体验中心: https://www.stepfun.com/studio/audio ?tab=speech-recognition Demo Page: https://stepaudiollm.github.io/step-audio-2.5-asr/ Model Card: https://stepaudiollm.github.io/step-audio-2.5-asr/model-card/

www.ithome.com · 2026-04-16 15:33:43+08:00 · tech

IT之家 4 月 16 日消息,阶跃星辰今日发布新一代语音生成模型 StepAudio 2.5 TTS ,官方号称人人都能是配音导演。 阶跃星辰官方表示,该语音合成模型首次将语境理解能力引入语音生成全流程。通过 Global Context(全局语境)+ Inline Context(文中语境)双档控制,搭配 Zero-shot 音色复刻, 让 AI 不是念文本,而是演文本 。 StepAudio 2.5 TTS 支持以下核心能力: 全局语境控制: 支持自定义整段语音的情绪基调、角色状态与场景氛围,使表达更统一、更连贯。 文中语境控制: 不仅能控制一句话怎么说,还能进一步调节语气、节奏、停顿、轻重变化、角色感和场景感,让声音表达更有分寸。 零样本复刻与全音色控制: 在保留目标音色特征的同时,支持对情感、风格和表达方式进行灵活调节,让同一种声音说出更多不同感觉。 IT之家附官方演示网址如下: https://stepaudiollm.github.io/step-audio-2.5-tts/zh.html