11日前

マルチモーダルトランスフォーマーによるマルチモーダル機械翻訳

{Xiaojun Wan, Shaowei Yao}
マルチモーダルトランスフォーマーによるマルチモーダル機械翻訳
要約

マルチモーダル機械翻訳(MMT)は、一般的に静止画像などの他のモダリティからの情報を導入することで翻訳品質を向上させることを目的としている。従来の研究では、さまざまな統合手法が提案されているが、多くの手法は複数のモダリティ間の相対的な重要性を考慮していない。すべてのモダリティを同等に扱うと、重要度の低いモダリティから無関係な情報が過剰にエンコードされてしまう可能性がある。本稿では、Transformerにマルチモーダル自己注意機構(multimodal self-attention)を導入することで、上記の課題を解決する手法を提案する。提案手法は、テキストに基づいて画像の表現を学習するため、画像に含まれる関係のない情報をエンコードするのを回避できる。実験および可視化分析の結果、本モデルが視覚情報の恩恵を効果的に受け、さまざまな評価指標において従来手法および競合ベースラインを著しく上回ることが示された。

マルチモーダルトランスフォーマーによるマルチモーダル機械翻訳 | 最新論文 | HyperAI超神経