Command Palette
Search for a command to run...
StepAudio 2.5 技术报告
StepAudio 2.5 技术报告
摘要
统一音频-语言建模已成为现代语音系统中的一个显著趋势,有望将大型语言模型的推理能力引入听觉任务。然而,现有的统一基础模型在自动语音识别(ASR)、文本到语音合成(TTS)以及实时口语交互等任务上,往往难以达到专用系统的深度水平。弥合这一差距仍是一个开放性的挑战。本报告介绍了 StepAudio 2.5,这是一个统一的音频-语言基础模型,其在上述三项能力上均能匹配甚至超越专用系统。我们并未将这些任务视为架构上截然不同的模块,而是基于这样一个前提:一旦文本和音频共享一个多模态表示空间,任务专业化就转化为操作机制的问题,涉及数据构建、优化目标和解码约束。受此洞察启发,我们将后训练范式从标准的监督学习推进至任务定制的基于人类反馈的强化学习(RLHF),并将其作为定义复杂优化目标的主要机制。我们利用这种以 RLHF 为核心的对齐方法,结合专用解码策略,将共享主干网络塑造为三种不同的操作模式。具体而言,ASR 分支通过可验证的多 token 解码提升转录效率;TTS 分支通过基于偏好的 RLHF 和富含上下文的监督实现可控且富有表现力的合成;实时分支则在 RLHF 框架内通过生成式奖励建模实现低延迟且符合人设的对话。在标准基准测试中,StepAudio 2.5 在 ASR、TTS 和实时任务上均取得了最先进的结果,证明了一个单一的音频-语言基础模型能够成功内化语音理解、生成和实时交互的不同部署目标。
一句话总结
StepAudio 2.5 由 StepFun-Audio 团队开发,是一款统一的语音-语言基础模型。该模型通过以任务定制的人类反馈强化学习(Reinforcement Learning from Human Feedback)和专用解码策略取代标准的监督式后训练,将共享骨干网络塑造成不同的运行模式,从而在自动语音识别、语音合成与实时交互方面达到与专用系统相当的水平,并在所有三个领域均取得最先进的基准性能。
核心贡献
- 提出 StepAudio 2.5 作为统一的语音-语言基础模型,通过将任务专业化视为运行模式的函数而非架构差异,弥合了统一架构与专用语音系统之间的性能差距。借助共享的多模态表征空间,该框架将自动语音识别、语音合成与实时语音交互整合至单一骨干网络中。
- 后训练范式从标准监督学习演进为以任务定制的人类反馈强化学习(RLHF)为核心机制,用于定义复杂的优化目标。这种以 RLHF 为中心的对齐方式结合专用解码约束,使共享骨干网络能够针对语音理解、生成与实时交互等不同部署目标进行动态适配。
- 分支特定实现包括用于提升转写效率的可验证多 token 解码、用于可控合成的带上下文丰富监督的偏好型 RLHF,以及用于低延迟对话的生成式奖励建模。在标准基准上的综合评估验证了该模型在所有三项能力上均达到最先进的性能,证明了其内化不同语音部署需求的能力。
引言
统一的语音-语言建模正成为语音系统的关键发展方向,旨在将大语言模型的推理能力直接嵌入听觉任务,从而简化识别、合成与实时交互的基础设施。然而,先前的统一方法在自动语音识别、语音合成与实时对话的性能和功能深度上,始终无法与专用系统相媲美。本研究通过 StepAudio 2.5 填补了这一空白。该统一基础模型将这些能力视为共享多模态空间内的不同运行模式,利用任务定制的人类反馈强化学习对单一骨干网络进行对齐,并结合专用解码与优化策略,在所有三个领域实现最先进的性能。
数据集
- 数据集构成与来源
- 研究团队通过专为语音理解、语音合成与对话任务设计的自动化生产流水线构建统一语料库。该数据集整合了主要公开语料库、专有内部录音以及涵盖普通话、英语及高频代码切换的真实场景音频。
- 各子集关键细节
- 短格式监督数据:约 10 万小时音频,单条样本时长限制为 30 秒。覆盖多样化垂直领域、专业术语以及远场和高噪环境等复杂声学条件。
- 长格式伪标注数据:5 万小时数据集合,旨在训练上下文一致性。通过拼接通过多系统验证阈值的 VAD 分割片段构建而成。
- 实时 SFT 流:分为三个并行轨道。对话骨干包含带有自然口误和话中修正的多轮对话。人格条件流将百万级算法生成的人格矩阵与真实场景对话配对。副语言流为训练样本附加氛围描述符与特定发声线索标签。
- 数据使用与训练策略
- 预训练期间,基于构建的元数据从不同数据质量层级中采样,以匹配特定训练阶段。监督微调阶段采用分阶段目标,与三个实时流相对应。流水线降低书面风格回复的权重,将策略锚定于口语语域,并穿插继承自中期训练的通用能力混合数据,以保留推理能力。
- 裁剪、元数据与处理细节
- 原始音频经过声音事件与语音活动检测,以剔除低质量非语音片段。相邻的有效片段被合并并重新分割为具有完整语义的基础样本。每个片段获得音频级标注,用于质量评分、合成语音检测与说话人计数。文本标注依赖双 ASR 模型,通过词错误率、编辑距离与语速进行交叉验证。研究团队按语言、时长及语义或音频质量对所有样本进行分级,以构建全面的元数据索引。对于长格式数据,三个 ASR 输出经标准化后通过 token 级投票进行融合。分歧率超过 0.05 的片段将被丢弃,剩余片段由 LLM 进行标点修正、逆文本归一化及跨会话术语一致性优化。最终的统一验证流水线校验角色一致性、交叉验证标注,并剔除人格裂变过程引入的近似重复项。
方法
StepAudio 2.5 的架构遵循共享的语音-语言堆栈,由冻结的音频编码器、轻量级适配器与大语言模型(LLM)解码器组成,构成统一的多模态处理框架。该设计明确了分工:音频编码器负责稳定的声学抽象,解码器则处理语义理解、上下文管理、指令遵循与生成。共享骨干网络使模型能够通过专业化支持多项下游任务,包括自动语音识别(ASR)、语音合成(TTS)与实时语音交互,所有任务均建立在共同基础之上。音频与文本 token 在单一序列空间内的融合,使解码器能够无缝处理双模态数据,将语音视为与文本并列的序列模态。
该模型基于文本混合专家(MoE)LLM 初始化,并经历分阶段预训练课程。第一阶段使用 30 亿 ASR 数据对齐语音与文本特征空间,期间仅训练适配器,编码器与解码器保持冻结。这为声学特征被文本原生解码器消费建立了初始接口。对齐完成后,模型词表扩展以包含语音 token,统一多模态训练开始,序列长度设为 16K,使用 8000 亿文本 token 与 8000 亿语音 token 数据。语音数据涵盖多种配置,包括 ASR、TTS、语音到文本翻译、话语级文本语音交错续写以及语音到语音对话,确保模型学习音频与文本间的操作接口而非简单关联。该多模态阶段分为两个步骤:1280 亿 token 的预热阶段用于稳定语音词表并适配 MoE 专家;主训练阶段对学习率进行归一化并退火辅助损失,以维持专家利用率与路由平衡。最后,在 6000 亿高质量 token 上进行冷却阶段,序列长度增至 32K,以优化长上下文能力并引入音频描述与指令型 TTS 等额外数据类型,强调更高质量的多模态监督。
针对 ASR 专业化,模型保留共享骨干网络,但如上图所示增加了多 token 预测(MTP)头。该头包含五个并行的未来 token 分支,在解码期间提出可验证的未来转写 token。在位置 t,主分支预测下一个 token xt+1,而第 h 个 MTP 分支预测 xt+1+h(其中 h∈{1,…,5}),生成一个六 token 提议。验证机制确保仅接受一致的前缀,从而保留自回归解码。每个 MTP 块接收来自前一分支的隐藏状态与移位 token 嵌入,经归一化、拼接、投影回解码器隐藏维度后,由 Transformer 块处理。所有分支与主解码器共享相同的嵌入层与输出头。ASR 训练流程包含用于建立可靠识别器的监督微调(SFT),随后是分阶段 MTP 训练。初始 SFT 阶段冻结编码器,使用 32K token 序列预算、SpecAugment 风格掩码与余弦衰减学习率调度优化适配器与解码器。MTP 训练在收敛后开始,首先对齐冻结分支,随后以较低学习率与骨干网络联合校准。训练目标结合标准下一个 token 损失与加权 MTP 损失,分支权重呈指数衰减以反映串行依赖关系。
实验
例如,基于 ASR 的指标在存在丰富副语言现象时往往变得不可靠,而基于嵌入的说话人验证模型通常会丢弃高频声学细节,无法准确捕捉韵律、说话风格与表达特征的相似性。
同样,基于 LLM 裁判的方法在可靠评估韵律质量与复杂情感表达方面仍面临困难。主观 MOS 评估也存在显著局限,因其需要高度训练的标注员,且评估者间的评分标准常不一致。
鉴于上述局限,本文采用竞技场风格的成对评估框架,模型通过成对偏好判断进行比较,整体性能由累积胜率衡量。为确保评估可靠性,本文在标准化评估协议与提升人类评估者间一致性方面投入了大量精力。
具体而言,本文按以下步骤执行:(1)首先使用少量音频样本进行听力敏感度筛查以筛选合格评估者。评估任务开始后,评估者集合保持固定,所有评估必须在同一评估期内连续完成。(2)评估过程中,确保模型音频对的选择与评估位置的排序均具有随机性,并要求评估者提供偏好判断的理由。(3)评估期间进行定期抽查,一旦发现显著偏差立即干预以维持评估者间一致性。全部评估完成后,进一步审查评估者间差异较大的案例并进行额外验证,以确保最终结果的可靠性。
图示:StepAudio-2.5-TTS 竞技场胜率。
最终,本文选取三款具备可控生成能力的领先模型:MiniMax-2.8-HD、Elevenlabs-v3 与 Gemini-3.1-Flash-TTS。针对各模型,采用其官方推荐的优化语音预设,并使用 774 条提示词进行竞技场评估。
图示结果表明,在与三款强劲 TTS 基线的成对评估中,StepAudio-2.5-TTS 取得 67.6% 的整体胜率,且在所有对比中均呈现稳定提升。
- 6.3 评估
由于实时交互质量依赖于转写级指标无法捕捉的属性,本文在完全交互式环境中评估 StepAudio 2.5 Realtime,该环境结合通过移动端会话进行的主观人类评估与针对通用对话、车载对话、对话理解及音频问答的客观 API 评估。包含以下五个套件:
-
Step-Dialogue-Human-Eval:通用对话场景的主观移动端评估。
-
step_Dialogue_general:通用对话的客观 API 评估。
-
step-Dialogue-car:车载对话场景的客观 API 评估。
-
Step-Dialogue-Understanding:87 个多样化音频样本,测试模型直接从音频信号推断说话人声学特征(如年龄、性别、语速)的能力。
-
Step-SPQA:Step-Audio 2 中引入的 11 类音频问答基准。
图示:实时交互评估。分数越高越好。最佳结果以粗体显示。
结果分析:如图所示,StepAudio 2.5 Realtime 在所有五个套件中均持续优于竞争基线。值得注意的是,其在主观人类评估上较次优系统高出 10.0 分,验证了人格与自然度调节的有效性。此外,Step-SPQA 上 +16.6 的领先优势与 Step-Dialogue-Understanding 上的强劲表现表明,副语言调节在提升声学理解能力的同时未损害通用推理能力。主观对话质量与客观音频理解的同步提升证明,排练调度有效平衡了专业化交互训练与基础能力。
本文采用竞技场风格成对比较框架评估 StepAudio-2.5-TTS,对比三款领先 TTS 模型。结果表明,StepAudio-2.5-TTS 取得较高的整体胜率,在主观质量上表现优异,并在各项独立对比中保持持续优势。该模型的卓越性能归功于有效的人格与自然度调节。StepAudio-2.5-TTS 在对抗强劲 TTS 基线的成对评估中实现高整体胜率。模型在与不同基线的各项独立对比中均展现稳定的性能提升。StepAudio-2.5-TTS 在主观质量上超越竞品,并在客观评估中维持强劲表现。
本文评估 StepAudio 2.5 ASR 与多款基线模型的推理效率,在标准化部署设置下测量实时因子(RTF)。结果表明,StepAudio 2.5 ASR 的 RTF 显著低于所有其他模型,表明其解码速度与效率更优。在所有对比模型中,StepAudio 2.5 ASR 展现出最低的实时因子,意味着更快的推理速度。该模型的解码效率大幅优于 VibeVoice-ASR、FunASR-Nano、Doubao-ASR-2603 与 Qwen3-ASR-1.7B。尽管使用更大的解码器,StepAudio 2.5 ASR 仍保持极低的 RTF,凸显其训练与解码策略的有效性。
本文分析不同 MTP 配置在语音识别任务上的表现,重点关注各位置的接受率及接受转写的平均长度。结果表明,增加分支数量可提升平均接受长度,但超过一定点后收益递减。无论配置如何,模型在早期位置均实现高接受率,而后期位置则呈现稳定的接受率衰减。最优配置在避免过高计算开销的前提下最大化接受长度,从而平衡效率与复杂度。增加分支数量可提升平均接受转写长度,但 MTP-5 之后收益递减。早期位置的接受率在各配置中保持稳定,表明预测质量一致。后期位置因故障率升高而持续干扰解码流,导致接受率稳定衰减。
本文在多种语言与长格式转写基准上评估 StepAudio 2.5 ASR 与多款基线模型。结果表明,该模型在中文、英文及长格式任务中均取得最佳性能,较竞争模型有显著提升,尤其在中文与长格式基准上。模型还展现出强劲的解码效率,在使用更大解码器的情况下仍实现极低的实时因子,这归功于其 MTP 训练方法。StepAudio 2.5 ASR 在中文与英文基准上表现最佳,在 AISHELL-1 与 LibriSpeech 等关键数据集上取得显著改进。模型在长格式转写精度上表现优异,平均错误率大幅领先其他模型。StepAudio 2.5 ASR 实现卓越的解码效率,尽管使用更大解码器仍保持极低实时因子,表明 MTP 训练有效。
该评估框架采用成对主观对比以验证 TTS 模型质量,并结合实时因子测量与跨语言基准测试以评估 ASR 变体的效率与精度。结果表明,TTS 系统持续提供卓越的主观质量与可靠的性能提升,主要得益于有效的人格与自然度调节。对于 ASR 组件,实验证明其在多种语言与长格式任务中具备卓越的解码速度与稳健的转写精度,而配置分析显示,优化多 token 预测分支需在提升转写覆盖率与计算开销及位置依赖的接受率衰减之间取得平衡。最终,两种模型均通过针对性的架构与训练策略,在高保真生成与快速推理之间建立了强有力的平衡。