17 天前

用于联合自动语音识别与多语言语音翻译的双解码器Transformer

Hang Le, Juan Pino, Changhan Wang, Jiatao Gu, Didier Schwab, Laurent Besacier

摘要

我们提出了一种新型模型架构——双解码器Transformer（dual-decoder Transformer），该架构能够联合执行自动语音识别（ASR）与多语言语音翻译（ST）任务。我们的模型基于原始的Transformer架构（Vaswani et al., 2017），但包含两个解码器，分别负责ASR或ST任务。本研究的主要贡献在于两个解码器之间的交互机制：通过一种双注意力（dual-attention）机制，一个解码器能够从另一个解码器获取不同的信息源。我们提出了两种该架构的变体，分别对应解码器之间不同层次的依赖关系，称为并行双解码器Transformer（parallel dual-decoder Transformer）和交叉双解码器Transformer（cross dual-decoder Transformer）。在MuST-C数据集上的大量实验表明，我们的模型在多语言设置下取得了优于此前报告的最高翻译性能，并且在一对一的双语任务中也表现更优。此外，与传统的多任务学习架构相比，我们的并行模型在ASR与ST任务之间未表现出性能权衡。相关代码与预训练模型已开源，可通过 https://github.com/formiel/speech-translation 获取。