
要約
多モーダル、アテンションベースのニューラル機械翻訳(NMT)モデルを紹介します。これらのモデルは、エンコーダとデコーダの異なる部分に視覚的な特徴を組み込むものです。我々は、事前学習された畳み込みニューラルネットワークを使用して抽出した全体的な画像特徴を利用し、それらを (i) ソース文の単語として、(ii) エンコーダの隠れ状態の初期化に、(iii) デコーダの隠れ状態の初期化に追加データとして組み込みます。実験では、これらの異なる戦略による全体的な画像特徴の組み込み方法がどのように比較され、どの方法が最も優れているかを評価しました。また、合成された多モーダル・多言語データを追加することによる影響も研究し、追加データが多モーダルモデルに肯定的な影響を与えることを確認しました。我々は新しい最先端の結果を報告しており、最良のモデルはMulti30kデータセットで訓練された同等のフレーズベース統計的機械翻訳(PBSMT)モデルよりもすべて評価指標において有意に性能を向上させています。当該研究グループが知る限り、これは純粋なニューラルモデルがこのデータセットで全ての評価指標においてPBSMTモデルに対して有意に性能を向上させる初めての事例です。