2 个月前

一种用于多模态机器翻译的视觉注意力接地神经模型

Mingyang Zhou; Runxiang Cheng; Yong Jae Lee; Zhou Yu

摘要

我们提出了一种新颖的多模态机器翻译模型，该模型利用了并行的视觉和文本信息。我们的模型联合优化了共享的视觉-语言嵌入和翻译器的学习过程。该模型采用了一种视觉注意力对齐机制，将视觉语义与相应的文本语义联系起来。在 Multi30K 和 Ambiguous COCO 数据集上，我们的方法达到了具有竞争力的最先进水平。此外，我们还收集了一个新的多语言多模态产品描述数据集，以模拟现实世界中的国际在线购物场景。在这个数据集上，我们的视觉注意力对齐模型大幅超越了其他方法。