15日前

画像-テキストマッチングのためのグラフ構造ネットワーク

Chunxiao Liu, Zhendong Mao, Tianzhu Zhang, Hongtao Xie, Bin Wang, Yongdong Zhang
画像-テキストマッチングのためのグラフ構造ネットワーク
要約

画像とテキストのマッチングは、視覚と言語の橋渡しを行うことから、近年注目を集めている。この分野の主な課題は、画像とテキストの間における対応関係をいかに学習するかにある。既存の手法は、物体の共起統計に基づいて粗い対応関係を学習するが、細粒度のフレーズレベルの対応関係の学習には失敗している。本論文では、細粒度の対応関係を学習するための新しいグラフ構造マッチングネットワーク(Graph Structured Matching Network; GSMN)を提案する。GSMNは、物体、関係、属性を構造化されたフレーズとして明示的にモデル化することで、物体、関係、属性それぞれの対応関係を独立して学習可能にするとともに、構造化されたフレーズの細粒度な対応関係の学習にも寄与する。これはノードレベルのマッチングと構造レベルのマッチングによって実現される。ノードレベルのマッチングでは、画像またはテキストの各ノード(物体、関係、属性)が、もう一方のモダリティにおける関連するノードと対応付けられる。その後、これらの関連ノードが構造レベルのマッチングにおいて近隣の関係性を統合することで、細粒度の対応関係を共同で推論する。包括的な実験により、GSMNが最先端手法を上回ることを示した。Flickr30KとMSCOCOのベンチマークにおいて、それぞれRecall@1で約7%および2%の相対的な向上が達成された。コードは以下のURLで公開される予定である:https://github.com/CrossmodalGroup/GSMN。

画像-テキストマッチングのためのグラフ構造ネットワーク | 最新論文 | HyperAI超神経