
摘要
多模态机器翻译(Multimodal Machine Translation, MMT)旨在引入其他模态的信息(通常为静态图像)以提升翻译质量。以往的研究提出了多种融合方法,但大多数方法未考虑多种模态之间的相对重要性。若对所有模态一视同仁,可能导致从次要模态中引入过多无关信息,从而影响翻译效果。本文在Transformer架构中引入多模态自注意力机制,以解决上述问题。所提出的方法基于文本内容学习图像表征,从而有效避免编码图像中与当前翻译任务无关的信息。实验结果与可视化分析表明,该模型能够有效利用视觉信息,在多种评价指标上显著优于以往方法及当前主流基线模型。