HyperAIHyperAI

Command Palette

Search for a command to run...

dots.tts 技术报告

摘要

我们提出 dots.tts,这是一个拥有 20 亿参数(2B-parameter)的连续自回归文本转语音(TTS)基础模型,其在连续潜在空间中建模语音。与现有的连续自回归模型相比,我们的核心创新主要体现在三个方面。首先,我们训练了一个具有多目标的 Audio-VAE,以构建一个具有语义结构且便于预测的连续语音空间。其次,我们在 flow-matching head 中采用全历史条件(full-history conditioning)以保留长距离一致性,并减少生成过程中的漂移(drift)。第三,我们对 flow-matching head 应用无奖励自校正后训练(reward-free self-corrective post-training),以进一步提升鲁棒性和声学质量。在大规模多语种语料库上训练后,dots.tts 在 Seed-TTS-Eval 基准测试中取得了最佳的平均性能,在 zh/en/zh-hard 测试集上的词错误率(WER)分别为 0.94%/1.30%/6.60%,相似度(SIM)得分分别为 81.0/77.1/79.5。在其他基准测试中,dots.tts 也一致展现出开源领域的最先进水平(SOTA)性能,表现出强大的生成稳定性、声音克隆能力和情感表达能力。为了实现高效推理,我们进一步应用了感知 CFG 的 MeanFlow 蒸馏技术,使得在输出流式和双流式模式下,首包延迟(first-packet latencies)分别低至 85 毫秒和 54 毫秒,从而实现低延迟的语音生成。为促进可复现的研究和实际部署,我们在 Apache 2.0 许可证下公开了训练和推理代码,以及预训练、后训练和经过 MeanFlow 蒸馏的检查点(checkpoints)。

一句话总结

dots.tts 是一个 2B 参数的连续自回归文本到语音基础模型,它采用多目标 Audio-VAE 构建语义结构化的潜空间、全历史流匹配条件以及无奖励自我修正后训练,在 Seed-TTS-Eval 上取得了开源最先进性能(zh/en/zh-hard 测试集 WER 分别为 0.94%/1.30%/6.60%,SIM 分别为 81.0/77.1/79.5),具有强大的语音克隆和情感表现力,而 CFG 感知 MeanFlow 蒸馏可在输出流式和双流式模式下实现低延迟流式传输,首包延迟分别为 85 ms 和 54 ms。

核心贡献

  • 使用多个目标训练的 Audio-VAE 为 dots.tts 构建了一个语义结构化、易于预测的连续潜空间。
  • 基于完整自回归历史的条件流匹配头减少了生成漂移并保持了长期时间一致性。
  • 对流匹配头应用无奖励自我修正后训练提升了鲁棒性和音质,dots.tts 在 Seed-TTS-Eval 上取得了最先进性能,zh/en/zh-hard 测试集 WER 分别为 0.94%/1.30%/6.60%,SIM 分数分别为 81.0/77.1/79.5。

引言

作者针对连续自回归文本到语音展开研究,该方法在潜空间中建模语音提供了灵活性,但先前的工作存在潜表示结构不佳、长序列生成漂移以及音质鲁棒性有限等缺点。作者提出 dots.tts,一个 2B 参数的多语言模型,包含三项创新:多目标 Audio-VAE 产生语义组织良好且易于预测的连续空间;流匹配头中的全历史条件化以保持长期一致性;以及无奖励自我修正后训练,无需外部反馈即可提升质量。结合高效的 CFG 感知 MeanFlow 蒸馏,这些改进在稳定性、语音克隆和表现力方面达到了开源最先进性能。

数据集

  • 数据集组成与来源
    作者使用 150 万小时的音频训练骨干网络,音频来自三个来源:内部中英文语音语料库、精选的开源 TTS 和 ASR 数据集,以及一个小型标注配对集,用于引导风格控制和通用音频生成。

  • 内部数据(约 120 万小时)

    • 训练音频的主要部分,来自内部普通话和英语语音语料库。
    • 统一预处理采用语音增强、音源分离、说话人感知的说话人日志化,以及基于语言路由的 ASR(英语和大多数语言使用 Whisper-Large-v3,普通话使用 Paraformer)。
    • 片段通过跨 ASR 一致性、有效带宽估计、UTMOS 和片段内 x-vector 方差进行筛选。
    • 筛选后得到清洁、带转录、按说话人组织的语音,直接用于骨干网络训练。
  • 开源语料库(约 30 万小时)

    • 精心混合的 TTS 和 ASR 数据集:Emilia、LibriTTS-R、HiFi-TTS、HiFi-TTS-2、WenetSpeech4TTS、AISHELL-3、Magicdata、MLS、MSR-86K、IndicVoices-R、EuroSpeech、WaxalNLP-TTS 和 FLEURS。
    • 每个语料库使用与内部数据相同的处理和筛选流水线重新评分。
    • 提供了大部分非 CJK 语言的覆盖。
  • 标注配对集(约 7 千小时)

    • 一个小型子集,旨在注入自然语言风格控制和通用音频生成能力。
    • 结合了部分与自然语言标注配对的 AutoACD 样本,以及内部筛选的开源录音片段,并附有 Gemini 生成的关于说话人特质、情感、语调和声学环境的描述。
  • 数据使用方式

    • 三个子集合并用于骨干网络训练,混合比例大致为 120 万(内部):30 万(开源):7 千(标注配对)小时。
    • 标注配对部分提供了作者提及的小比例通用音频,并引入了标注条件下的风格控制。
  • 处理与元数据细节

    • 预处理流水线生成按说话人组织的音频片段及 ASR 转录。
    • 对于标注配对集,元数据由 Gemini 合成的描述丰富;除说话人日志化和评分步骤外,未描述额外的裁剪处理。

方法

作者采用一个完全连续、端到端的自回归 TTS 系统,该系统由两个解耦网络组成:一个音频变分自编码器(AudioVAE)定义连续表示,一个自回归骨干网络逐块预测该表示。AudioVAE 将 48 kHz 单声道语音编码为 25 Hz 的 128 维潜流,并通过 BigVGAN 风格解码器重建回语音。训练后,AudioVAE 被冻结,同时作为生成目标和骨干网络的输入表示。

骨干网络包含三个主要组件:语义编码器、大语言模型(LLM)和自回归流匹配头。LLM 处理语义层面的生成,而流匹配头处理声学层面。

参考框架图:

LLM 由预训练文本 LLM 初始化,接收 BPE 文本 tokens 和 6.25 Hz 音频语义嵌入流,并为每个音频步输出一个隐藏状态。在普通 TTS 模式下,文本被前置为前缀,而在低延迟流式传输中以 1T1A 布局与音频交错。自回归流匹配头(AR-FM)以该隐藏状态为条件,生成 25 Hz VAE 潜变量的下一个四帧块。语义编码器将每个新生成的块投影回单一的 6.25 Hz 嵌入,馈入下一时间步的 LLM。LLM 仅看到此语义摘要,而非原始 VAE 潜变量,这对于保持连续自回归推演的稳定性是必要的。

AR-FM 头使用扩散变换器(DiT)作为速度场预测器。每个时间步的 VAE 块为 25 Hz 下的 4 个潜帧。在每一音频位置,该头接收由三个流投影到公共隐藏空间后组装的流匹配上下文:该位置的 LLM 隐藏状态、所有之前音频位置的干净块,以及正在生成的噪声块。说话人 x-vector 作为全局条件加入,通过在训练期间以一定概率丢弃 LLM 隐藏流和说话人特征流实现无分类器引导。

为高效训练 AR-FM 头,作者在拼接的因果序列和生成序列上使用块因果注意力掩码。

如下图所示:

训练序列由等长的两半构建而成。因果部分包含干净的 LLM 条件历史,生成部分包含去噪过程中的噪声块。两半之间的位置索引重置,以使 RoPE 相位与单步推理前向的相位匹配。块因果掩码将注意力矩阵划分为四个子块。因果到因果块为标准因果注意力。因果到生成块被完全掩码,使因果流隐藏状态独立于噪声目标。生成到因果块为前缀因果,允许每个生成块关注推理时该块所见的确切自回归上下文。生成到生成块为块对角形式,使不同块独立去噪。此布局使并行训练前向在数值上与逐步推理推演等价。

完整的训练流程分为三个阶段:AudioVAE 训练、骨干网络预训练和后训练。

AudioVAE 的训练分为两个阶段。第一阶段以重建质量为目标,使用多周期加多尺度子带 CQT 对抗损失、多尺度梅尔频谱重建损失和特征匹配损失,并结合 KL 散度和流正则化。第二阶段以可学习性为目标,添加针对冻结 WavLM 教师的帧级对齐损失,并训练多任务下游模块,执行 ASR、情感和说话人分类目标。下游编码器被保留为语义前端。

骨干网络预训练分为三个子阶段:模态对齐、通用训练和退火。预训练期间,模型使用流匹配损失和停止损失进行优化。流匹配损失是预测速度与 VAE 潜变量上解析条件向量场之间的逐块均方误差:

Lfm=En,tU(0,1),ϵN(0,I),Pnvθ(Znt,t,Hn,P<n,s)(Pnϵ)2\mathcal { L } _ { \mathrm { f m } } = \mathbb { E } _ { n , \, t \sim \mathcal { U } ( 0 , 1 ) , \, \epsilon \sim \mathcal { N } ( 0 , I ) , \, P _ { n } } \left| v _ { \theta } \big ( Z _ { n } ^ { t } , \, t , \, H _ { \leq n } , \, P _ { < n } , \, s \big ) - ( P _ { n } - \epsilon ) \right| ^ { 2 }Lfm=En,tU(0,1),ϵN(0,I),Pnvθ(Znt,t,Hn,P<n,s)(Pnϵ)2

停止损失使用专用 EOS 预测头,以平衡二元交叉熵进行训练:

Leos=12logpN112(N1)n=0N2log(1pn)\mathcal { L } _ { \mathrm { e o s } } = - \frac { 1 } { 2 } \, \log p _ { N - 1 } \, - \, \frac { 1 } { 2 ( N - 1 ) } \sum _ { n = 0 } ^ { N - 2 } \log ( 1 - p _ { n } )Leos=21logpN12(N1)1n=0N2log(1pn)

预训练后,作者对 AR-FM 头内部的 DiT 声学生成器应用后训练。第一个后训练阶段采用无奖励自我修正目标。通过执行去依附的 Euler 推演并对偏离轨迹的状态重新添加噪声,使模型接触其自身的推理错误,以学习将这些状态引导回干净的潜变量终点。第二阶段为 CFG 感知 MeanFlow 蒸馏。将自我修正后的 DiT 冻结作为教师,训练一个学生 DiT 预测一段时间间隔内的平均速度。由于无分类器引导被融合进教师目标中,学生只需在推理时进行一次条件前向计算,即可直接匹配教师的引导平均速度预测。

实验

评估涵盖 Seed-TTS-Eval 上的基础零样本质量、MiniMax-Speech 24 种语言的多语言覆盖、CV3-Eval 上的跨语言语音克隆,以及 EmergentTTS-Eval 上的表现力,所有测试均使用未见过的短参考提示。dots.tts 在所有基准上达到领先的说话人相似度,并在词错误率上达到最优或具有竞争力,尤其在跨语言音色保持和句法复杂度方面有显著提升,而自我修正对齐和 MeanFlow 蒸馏阶段可纠正多步推理漂移,并以极小的相似度代价实现高效的少步生成。连续 AudioVAE 几乎不引入重建开销,整个系统展示了实时流式传输的可行性,尽管低资源语言的词错误率以及表现力与一致性之间的权衡仍为开放挑战。

作者在评估单词语言词错误率和跨语言语音克隆的基准上测试了所提模型。结果表明,蒸馏版本在英文困难单语子集上取得了最低的错误率,而自我修正对齐版本在跨语言任务中说话人相似度领先。然而,尽管相似度得分高,跨语言词错误率仍高于某些基线。蒸馏模型变体在英文困难单语子集上取得了最佳词错误率。自我修正对齐模型在英中和中英两个跨语言方向上均实现了领先的说话人相似度,优于其他基线。所提模型的跨语言词错误率尽管说话人相似度强劲,仍落后于领先基线。

作者使用相对于参考系统的头对头音频评判,评估了以表现力为导向的场景。所提模型变体在开源系统中取得了最高的总体胜率,自我修正对齐版本词错误率最低。模型在句法复杂度和情感表达方面优于其他开源基线,但在复杂发音和外来词上因词汇覆盖限制而表现挣扎。自我修正对齐变体在所有评估系统中取得了最高的句法复杂度分数,超越开源和闭源基线。预训练变体在情感表达方面领先开源领域,但使用精心调音色的闭源系统得分更高。模型在复杂发音和外来词上的性能下降,表明在稀有或分布外词汇项上存在挑战。

作者使用 MiniMax-Speech 测试集评估了 24 种语言的多语言零样本文本到语音性能。结果表明,所提模型取得了最高的平均说话人相似度,在绝大多数单一语言上领先基线。尽管内容保真度在多数语言上保持竞争力,少数低资源语言因 token 覆盖不足而词错误率升高。所提模型在平均说话人相似度指标上领先,并在多数语言上取得最高分。MeanFlow 蒸馏变体在平均层面上与自我修正对齐版本性能相当,相似度仅有轻微折损。内容保真度在资源充足的语言上表现强劲,但在低资源的离群点上因 token 覆盖问题而退化。

作者在标准语音数据集上评估了其 AudioVAE 的重建性能,并与离散神经编解码器和连续表示进行比较。所提模型以高采样率和低帧率运行,在大多数质量和相似度指标上达到了顶级水平。这种高保真度确保潜表示对端到端流水线引入的误差极小,避免了重建成为下游瓶颈。离散 tokenizer 在感知质量和说话人相似度指标上始终不如连续表示。所提 VAE 在所有评估模型中取得了最高的说话人相似度和最低的词错误率,接近真实水平。尽管采用了低帧率,模型在可懂度和感知指标上仍保持与其他连续表示相当的顶级水平。

作者在零样本语音克隆基准上评估 dots.tts,与各种开源和商业系统进行比较。所提模型变体在内容保真度和说话人相似度两个指标上均取得了最佳平均性能,超越所有报告基线。后训练阶段提升了说话人相似度,而蒸馏方法在减少推理步数的同时保持了低错误率。dots.tts 变体在词错误率和说话人相似度的平均得分上均居所有评估基线的首位。后训练阶段取得了最高的说话人相似度,优于最接近的竞争模型。MeanFlow 蒸馏在需要显著减少推理步数的同时,保持了与完整模型相当的错误率。

评估覆盖了单语词错误率、跨语言语音克隆、表现力、多语言零样本 TTS、音频潜变量重建质量和零样本语音克隆基准。蒸馏模型变体在困难英文数据上提供了最低的词错误率,而自我修正对齐版本实现了最佳的跨语言说话人相似度和最高的句法复杂度得分,尽管跨语言词汇准确度以及处理稀有或分布外词汇项仍具挑战。在 24 种语言的零样本设置中,模型在平均说话人相似度上领先,在内容保真度上保持竞争力,但低资源语言因 token 覆盖有限而出现较高错误率。AudioVAE 提供了高保真的连续表示,在可懂度和相似度上接近真实水平,最终的 dots.tts 系统在各基线中取得了最佳的内容保真度和说话人相似度平均值,后训练增强了相似度,MeanFlow 蒸馏在减少推理步数的同时维持了低错误率。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供