
摘要
我们介绍了一种多模态、基于注意力机制的神经机器翻译(NMT)模型,该模型在编码器和解码器的不同部分中融入了视觉特征。我们利用预训练的卷积神经网络提取全局图像特征,并将其(i)作为源句中的单词,(ii)用于初始化编码器的隐藏状态,以及(iii)作为额外数据来初始化解码器的隐藏状态。在实验中,我们评估了这些不同策略在融入全局图像特征方面的效果,并确定了哪些策略表现最佳。此外,我们还研究了添加合成的多模态、多语言数据的影响,发现这些额外的数据对多模态模型有积极的作用。我们在所有评估指标上报告了新的最先进结果,我们的最佳模型在Multi30k数据集上的所有指标上显著优于一个可比较的基于短语的统计机器翻译(PBSMT)模型。据我们所知,这是首次纯神经模型在该数据集的所有评估指标上显著超越PBSMT模型。