17 天前
用于联合自动语音识别与多语言语音翻译的双解码器Transformer
Hang Le, Juan Pino, Changhan Wang, Jiatao Gu, Didier Schwab, Laurent Besacier

摘要
我们提出了一种新型模型架构——双解码器Transformer(dual-decoder Transformer),该架构能够联合执行自动语音识别(ASR)与多语言语音翻译(ST)任务。我们的模型基于原始的Transformer架构(Vaswani et al., 2017),但包含两个解码器,分别负责ASR或ST任务。本研究的主要贡献在于两个解码器之间的交互机制:通过一种双注意力(dual-attention)机制,一个解码器能够从另一个解码器获取不同的信息源。我们提出了两种该架构的变体,分别对应解码器之间不同层次的依赖关系,称为并行双解码器Transformer(parallel dual-decoder Transformer)和交叉双解码器Transformer(cross dual-decoder Transformer)。在MuST-C数据集上的大量实验表明,我们的模型在多语言设置下取得了优于此前报告的最高翻译性能,并且在一对一的双语任务中也表现更优。此外,与传统的多任务学习架构相比,我们的并行模型在ASR与ST任务之间未表现出性能权衡。相关代码与预训练模型已开源,可通过 https://github.com/formiel/speech-translation 获取。