
要約
私たちは、事前学習された畳み込みニューラルネットワークを使用して得られた空間的な視覚特徴を自然に組み込むことができる、マルチモーダルニューラルマシン翻訳モデルを紹介します。このモデルは、ターゲット言語の単語を生成する過程で、ソース言語の単語と画像の部分を2つの異なる注意機構によって独立して注目することを学びます。我々の研究では、このモデルがドメイン内での多様なモーダルデータだけでなく、大規模な一般ドメインのテキストのみの機械翻訳コーパスも効率的に活用できることが示されました。また、Multi30kデータセットにおいて最先端の結果を得たことも報告しています。