
要約
マルチモーダル機械翻訳(MMT)は視覚情報の導入により翻訳品質の向上を図っている。しかし、従来のMMTモデルは、画像がテキストと関係のない情報を含むという問題を無視しており、モデルに多くのノイズをもたらし、翻訳品質に悪影響を及ぼしている。本稿では、マルチモーダル機械翻訳向けに新たなGumbel-Attentionを提案する。この手法は、画像特徴量の中からテキストに関連する部分を自動選択する。具体的には、従来のアテンションベースの手法とは異なり、まず微分可能な方法を用いて画像情報の選択を行い、画像特徴量の無関係な部分を自動的に除去する。実験の結果、本手法はテキストに関連する画像特徴量を保持しており、残存する部分がMMTモデルによるより優れた翻訳生成を支援することが確認された。