15日前

画像・テキストマッチングにおける類似性推論とフィルタリング

Haiwen Diao, Ying Zhang, Lin Ma, Huchuan Lu
画像・テキストマッチングにおける類似性推論とフィルタリング
要約

画像とテキストのマッチングは、視覚と言語の橋渡しにおいて重要な役割を果たしており、画像と文の間のグローバルな整合性、あるいは領域と語の間のローカルな整合性を活用することで、著しい進展が達成されてきた。しかし、これらの整合性をどのように最大限に活かしてより正確なマッチングスコアを推定するかについては、まだ十分に検討されていない。本論文では、画像-テキストマッチングを目的とした新たな類似性グラフ推論とアテンションフィルタリング(SGRAF)ネットワークを提案する。具体的には、まずベクトル表現に基づく類似性表現を学習し、ローカルおよびグローバルな整合性をより包括的に特徴づける。その後、1つのグラフ畳み込みニューラルネットワーク(GCN)を用いて、ローカルおよびグローバルな整合性を統合的に考慮した関係認識型類似性を推定する「類似性グラフ推論(SGR)モジュール」を導入する。さらに、「類似性アテンションフィルタリング(SAF)モジュール」を構築し、重要かつ代表的な整合性にのみ選択的に注目することで、意味のない整合性による干渉を排除しつつ、これらの整合性を効果的に統合する。提案手法は、Flickr30KおよびMSCOCOデータセットにおいて最先端の性能を達成することを実証した。また、広範な定性的な実験と分析を通じて、SGRおよびSAFモジュールの優れた解釈可能性も示した。

画像・テキストマッチングにおける類似性推論とフィルタリング | 最新論文 | HyperAI超神経