
要約
テキストと画像の間に共有される共通の意味構造が存在する。あるソース言語の文に対して、視覚的情報を用いることで、ターゲット言語への翻訳が改善されるだろうか?従来のマルチモーダルニューラル機械翻訳(MNMT)手法は、学習段階においてバイリンガル文と画像の三つ組(triplet)を必要とし、推論段階ではソース文と画像のペア(tuple)を必要としていた。本論文では、視覚的想像(visual imagination)を活用する新しい機械翻訳手法「ImagiT」を提案する。ImagiTは、まずソース文から視覚表現を生成する能力を学習し、その後、ソース文と「想像された表現(imagined representation)」の両方を用いてターゲット言語の翻訳を生成する。従来の手法とは異なり、ImagiTは推論時にはソース文のみを必要とする。実験の結果、ImagiTは視覚的想像の恩恵を享受し、テキストのみを用いたニューラル機械翻訳のベースラインを顕著に上回ることが示された。さらに詳細な分析から、ImagiTにおける想像プロセスが、劣化戦略(degradation strategy)を適用する際の情報欠落を補完する役割を果たしていることが明らかになった。