15日前

IMRAM:クロスモーダル画像テキスト検索のための反復的マッチングと再帰的アテンションメモリ

Hui Chen, Guiguang Ding, Xudong Liu, Zijia Lin, Ji Liu, Jungong Han
IMRAM:クロスモーダル画像テキスト検索のための反復的マッチングと再帰的アテンションメモリ
要約

画像とテキストの双方向検索を可能にするのは、視覚と言語の対応関係を理解する上で重要である。従来の手法は、注意メカニズム(attention mechanism)を活用して、細粒度なレベルでこのような対応関係を探索している。しかし、これらの多くはすべての意味情報を同等に扱い、その複雑さの多様性を無視して一様に対応付けてしまう。実際には意味情報は多様であり(異なる種類の意味的概念を含む)、人間はしばしば潜在的な構造に従ってそれらを統合して理解可能な言語として構成している。このような洗練された対応関係を既存の手法で最適に捉えるのは困難である。本論文では、こうした課題を解決するために、反復的マッチングと再帰的注意メモリを組み合わせた「Iterative Matching with Recurrent Attention Memory(IMRAM)」手法を提案する。本手法は、画像とテキスト間の対応関係を複数段階のアライメントにより捉える。具体的には、細粒度な対応関係を段階的に探索するための反復的マッチングスキームを導入し、早期の段階で得られたアライメント知識を後続の段階に精緻化するためのメモリ蒸留ユニット(memory distillation unit)を用いる。Flickr8K、Flickr30K、MS COCOの3つのベンチマークデータセットにおける実験結果から、IMRAMは最先端の性能を達成しており、その有効性が明確に示された。さらに、実際のビジネス広告データセット(\Ads{})を用いた実験により、本手法の実用的場面における適用可能性も裏付けられた。

IMRAM:クロスモーダル画像テキスト検索のための反復的マッチングと再帰的アテンションメモリ | 最新論文 | HyperAI超神経