2 个月前

基于词元的集合蒸馏用于图符到音素转换

Hao Sun; Xu Tan; Jun-Wei Gan; Hongzhi Liu; Sheng Zhao; Tao Qin; Tie-Yan Liu
基于词元的集合蒸馏用于图符到音素转换
摘要

图到音(G2P)转换是自动语音识别和文本转语音系统中的一个重要任务。近年来,G2P 转换被视为一个序列到序列的任务,并通过基于循环神经网络(RNN)或卷积神经网络(CNN)的编码器-解码器框架进行建模。然而,以往的研究在将 G2P 模型部署到生产系统时并未考虑实际问题,例如如何利用额外的未标记数据来提高准确性,以及如何减少模型大小以适应在线部署。在这项工作中,我们提出了用于 G2P 转换的词元级集成蒸馏方法,该方法可以(1)通过从额外的未标记数据中提取知识来提高准确性;(2)在保持高准确性的前提下减小模型大小,这两点对于在线生产系统非常实用且有帮助。我们采用了词元级知识蒸馏方法,其准确率优于序列级方法。此外,我们使用了 Transformer 模型而非基于 RNN 或 CNN 的模型,以进一步提升 G2P 转换的准确性。在公开可用的 CMUDict 数据集和内部英语数据集上的实验结果证明了我们所提出方法的有效性。特别是,我们的方法在 CMUDict 数据集上实现了 19.88% 的单词错误率(WER),比之前的工作提高了超过 4.22% 的 WER,并创下了新的最先进水平。

基于词元的集合蒸馏用于图符到音素转换 | 最新论文 | HyperAI超神经