16日前
マルチモーダル機械翻訳のための動的コンテキスト誘導型カプセルネットワーク
Huan Lin, Fandong Meng, Jinsong Su, Yongjing Yin, Zhengyuan Yang, Yubin Ge, Jie Zhou, Jiebo Luo

要約
マルチモーダル機械翻訳(MMT)は、主に視覚的特徴を活用してテキストのみの翻訳を向上させることを目的としており、コンピュータビジョンおよび自然言語処理の両分野において大きな注目を集めている。現在の多数のMMTモデルは、視覚的特徴を活用するために、アテンション機構、グローバルな文脈モデリング、またはマルチモーダル統合表現学習を採用している。しかし、アテンション機構はモダリティ間の十分な意味的相互作用を提供しない一方で、残りの2つのアプローチは固定された視覚的文脈を提供するため、翻訳生成時に観測される変動性を適切にモデル化するには不向きである。この問題を解決するために、本論文では、MMT向けに新たな「動的文脈誘導型カプセルネットワーク(DCCN)」を提案する。具体的には、デコードの各時刻において、まず従来のソース-ターゲットアテンションを用いて、時刻に依存するソース側の文脈ベクトルを生成する。次に、DCCNはこのベクトルを入力とし、文脈誘導型の動的ルーティング機構を用いて、関連する視覚的特徴を反復的に抽出する。特に、入力画像をグローバルな視覚的特徴と局所的な視覚的特徴に分解し、異なる粒度の視覚的特徴を用いてマルチモーダル文脈ベクトルをモデル化するため、2つの並列なDCCNを導入する。最終的に得られた2つのマルチモーダル文脈ベクトルは、融合され、ターゲット語の予測にデコーダに組み込まれる。英語→ドイツ語および英語→フランス語翻訳を対象としたMulti30Kデータセットにおける実験結果から、DCCNの優位性が確認された。本研究のコードは、https://github.com/DeepLearnXMU/MM-DCCN にて公開されている。