
要約
マルチモーダル機械翻訳(MMT)に関する従来の研究では、二語間翻訳の枠組みを拡張する形で、対応する視覚情報(画像)を追加することで性能の向上が図られている。しかし、マルチモーダルデータセットにおける「画像の必須性」という制約が、MMTの発展を大きく妨げている。すなわち、[画像、元言語テキスト、対象言語テキスト]という対応した形式が必須となる点が問題であり、特に推論フェーズにおいて、通常のNMT(自然言語機械翻訳)のように対応する画像が提供されない状況では、この制約が顕著に課題となる。そこで本研究では、逆方向知識蒸留(inversion knowledge distillation)スキームを採用した新たなMMTフレームワーク「IKD-MMT」を提案する。本手法では、マルチモーダル特徴生成器と知識蒸留モジュールを組み合わせ、入力として(画像を含まず)元言語テキストのみを用いて、直接的にマルチモーダル特徴を生成する。画像なしでの推論を可能にする試みは過去にもいくつか存在するが、それらの性能は依然として「画像必須」の翻訳システムに及ばない状況であった。本研究の実験結果から、我々の手法が、画像なしのアプローチとして初めて、従来の画像必須フレームワークと総合的に同等または上回る性能を達成し、広く用いられるMulti30kベンチマークにおいて最先端の結果を達成したことが明らかになった。本研究のコードおよびデータは、以下より公開されている:https://github.com/pengr/IKD-mmt/tree/master。