17日前

X-Linear Attention ネットワークによる画像キャプション生成

Yingwei Pan, Ting Yao, Yehao Li, Tao Mei
X-Linear Attention ネットワークによる画像キャプション生成
要約

細粒度視覚認識および視覚質問応答(VQA)分野における最近の進展は、多モーダル入力間の2次相互作用を効果的にモデル化するための「双線形プーリング(Bilinear Pooling)」の活用が特徴である。しかし、画像キャプション生成の文脈において、このような相互作用を注意機構(attention mechanism)と併用して構築する根拠はこれまで確認されていない。本論文では、双線形プーリングを完全に活用し、視覚情報の選択的利用や多モーダル推論を可能にする統一的な注意ブロック「X-Linear注意ブロック」を提案する。技術的に、X-Linear注意ブロックは、空間的およびチャネルワイズな双線形注意分布を同時に活用することで、単モーダルまたは多モーダル特徴間の2次相互作用を捉える。複数のX-Linear注意ブロックをスタックすることで高次(乃至無限次)の特徴相互作用を容易にモデル化でき、かつパラメータフリーな形でExponential Linear Unit(ELU)を導入することで、その表現力をさらに強化できる。さらに、画像エンコーダおよび文デコーダにX-Linear注意ブロックを新しく統合した「X-Linear注意ネットワーク(X-LAN)」を提案し、モーダル内およびモーダル間の高次相互作用を効果的に活用する。COCOベンチマーク上での実験結果から、本研究のX-LANは、COCO Karpathyテストスプリットにおいて、これまでに発表された最高のCIDErスコア132.0%を達成した。さらにTransformerモデルにX-Linear注意ブロックを組み込むことで、CIDErスコアは132.8%まで向上した。ソースコードは以下のURLから公開されている:\url{https://github.com/Panda-Peter/image-captioning}。