9 天前
XLS-R:大规模自监督跨语言语音表示学习
Arun Babu, Changhan Wang, Andros Tjandra, Kushal Lakhotia, Qiantong Xu, Naman Goyal, Kritika Singh, Patrick von Platen, Yatharth Saraf, Juan Pino, Alexei Baevski, Alexis Conneau, Michael Auli

摘要
本文介绍了XLS-R,一种基于wav2vec 2.0架构的大规模跨语言语音表示学习模型。我们在近50万小时的公开语音音频数据上训练了参数规模高达20亿的模型,覆盖128种语言,所用公开数据量较目前已知最大的同类工作高出一个数量级。我们的评估涵盖了广泛的任务类型、应用领域、数据配置以及高资源与低资源语言。在CoVoST-2语音翻译基准测试中,XLS-R在21个向英语的翻译方向上平均提升了7.4的BLEU分数,显著超越此前的最先进水平。在语音识别任务中,XLS-R在BABEL、MLS、CommonVoice以及VoxPopuli等多个基准上均优于现有最佳方法,平均相对词错误率降低14%至34%。此外,XLS-R在VoxLingua107语言识别任务上也取得了新的最先进性能。更重要的是,我们证明了在模型规模足够大的情况下,跨语言预训练甚至可以超越仅基于英语的预训练方法,即便在英语语音翻译为其他语言这一通常更有利于单语预训练的场景下亦如此。我们期望XLS-R能够推动全球更多语言的语音处理技术进步。