11日前

画像-テキスト検索のためのディープな局所的・グローバルなシーングラフマッチング

Manh-Duy Nguyen, Binh T. Nguyen, Cathal Gurrin
画像-テキスト検索のためのディープな局所的・グローバルなシーングラフマッチング
要約

画像とテキストの検索に関する従来のアプローチは、画像に登場する視覚的オブジェクトのインデキシングに主眼を置いており、これらのオブジェクト間の相互作用にはほとんど注目してこなかった。しかし、これらのオブジェクトの出現および相互作用は、テキスト中にしばしば言及されるため、本分野においては同等に有用かつ重要である。シーングラフ表現は、オブジェクト間の相互関係を捉える能力に優れているため、画像-テキストマッチングの課題に適した手法であり、良好な成果を上げてきた。本手法では、画像とテキストの両方をシーングラフレベルで表現し、検索課題をシーングラフのマッチング問題として定式化する。本論文では、グラフの全体的な構造情報を捉えるために追加のグラフ畳み込みネットワーク(Graph Convolution Network)を統合した、局所的およびグローバルなシーングラフマッチング(Local and Global Scene Graph Matching: LGSGM)モデルを提案する。具体的には、画像とそのキャプションに対応するシーングラフのペアに対して、それぞれのグラフのノードおよびエッジの特徴を学習するための独立したモデルを用いる。その後、シメイジ構造を採用したグラフ畳み込みモデルにより、グラフをベクトル表現に埋め込む。最後に、グラフレベルとベクトルレベルの情報を統合して、画像-テキストペア間の類似度を計算する。実験結果から、本手法における多レベル統合により、ベースライン手法の性能が著しく向上し、Flickr30kデータセットにおいてリコール率が10%以上向上することが確認された。

画像-テキスト検索のためのディープな局所的・グローバルなシーングラフマッチング | 最新論文 | HyperAI超神経