17 天前
G-Augment:面向自动语音识别的数据增强策略元结构搜索
Gary Wang, Ekin D.Cubuk, Andrew Rosenberg, Shuyang Cheng, Ron J. Weiss, Bhuvana Ramabhadran, Pedro J. Moreno, Quoc V. Le, Daniel S. Park

摘要
数据增强是提升自动语音识别(ASR)训练鲁棒性的常用技术。尽管ASR训练流程的大部分已实现自动化,并趋向于“端到端”模式,但数据增强策略(即采用哪些增强函数及其应用方式)仍依赖人工设计。本文提出Graph-Augment,一种将增强空间建模为有向无环图(DAG)并在此空间中进行搜索以优化增强策略的新方法。实验结果表明,在相同的计算预算下,Graph-Augment生成的增强策略在CHiME-6和AMI数据集的微调任务上,性能优于通过随机搜索获得的SpecAugment策略。此外,Graph-Augment在CHiME-6测试集上取得了新的最优ASR性能,词错误率(WER)降至30.7%。我们还进一步验证,相较于通过随机搜索得到的SpecAugment策略,Graph-Augment策略在从热启动(warm-start)到冷启动(cold-start)训练、以及不同模型规模之间的迁移能力方面均表现出更优的泛化性能。