17 天前

基于预训练模型与适配器的端到端语音翻译:UPC在IWSLT 2021的实践

Gerard I. Gállego, Ioannis Tsiamas, Carlos Escolano, José A. R. Fonollosa, Marta R. Costa-jussà
基于预训练模型与适配器的端到端语音翻译:UPC在IWSLT 2021的实践
摘要

本文介绍了巴塞罗那理工大学(UPC)机器翻译团队在 IWSLT 2021 离线语音翻译任务中的参赛方案。该任务要求构建一个系统,能够将来自 TED 演讲的英文语音录音自动翻译为德文文本。参赛系统可采用级联(cascade)或端到端(end-to-end)架构,并可使用自定义或给定的语音分段方式。本团队提交的方案为一种端到端语音翻译系统,该系统融合了预训练模型(Wav2Vec 2.0 与 mBART),并在编码器与解码器之间引入耦合模块,同时采用一种高效的微调技术,仅训练模型总参数的 20%。实验表明,向系统中引入 Adapter 模块并进行预训练,可显著提升模型收敛速度与最终性能,使系统在 MuST-C 测试集上达到 27.3 的 BLEU 分数。最终,通过模型集成(ensemble)策略,系统在相同测试集上进一步提升至 28.22 的 BLEU 分数。此外,本方案还提出了一种自定义语音分段算法,该算法基于预训练的 Wav2Vec 2.0 模型识别无法转录的语音片段,在 IWSLT 2019 测试集上相较使用给定分段方式,性能提升达 2.5 至 3 个 BLEU 分数。