17 天前

基于预训练模型与适配器的端到端语音翻译：UPC在IWSLT 2021的实践

Gerard I. Gállego, Ioannis Tsiamas, Carlos Escolano, José A. R. Fonollosa, Marta R. Costa-jussà

摘要

本文介绍了巴塞罗那理工大学（UPC）机器翻译团队在 IWSLT 2021 离线语音翻译任务中的参赛方案。该任务要求构建一个系统，能够将来自 TED 演讲的英文语音录音自动翻译为德文文本。参赛系统可采用级联（cascade）或端到端（end-to-end）架构，并可使用自定义或给定的语音分段方式。本团队提交的方案为一种端到端语音翻译系统，该系统融合了预训练模型（Wav2Vec 2.0 与 mBART），并在编码器与解码器之间引入耦合模块，同时采用一种高效的微调技术，仅训练模型总参数的 20%。实验表明，向系统中引入 Adapter 模块并进行预训练，可显著提升模型收敛速度与最终性能，使系统在 MuST-C 测试集上达到 27.3 的 BLEU 分数。最终，通过模型集成（ensemble）策略，系统在相同测试集上进一步提升至 28.22 的 BLEU 分数。此外，本方案还提出了一种自定义语音分段算法，该算法基于预训练的 Wav2Vec 2.0 模型识别无法转录的语音片段，在 IWSLT 2019 测试集上相较使用给定分段方式，性能提升达 2.5 至 3 个 BLEU 分数。