
要約
視覚的接地(visual grounding)は、多くの視覚言語タスクにおける基本的な構成要素でありながら、接地対象の視覚的および言語的特徴に大きな変動が生じるため、強い文脈依存性とそれに伴う意味の曖昧性が残るという課題を抱えている。従来の研究は、限定的な文脈情報を用いて個々の語句の表現を学習することに主眼を置いてきた。本研究では、これらの制約を克服するため、接地対象のグローバルな文脈および相互関係を捉えるための言語誘導型グラフ表現を提案するとともに、複数語句に対する視覚的接地タスクに適したクロスモーダルグラフマッチング戦略を構築する。具体的には、メッセージ伝搬を用いて語句およびオブジェクト候補それぞれの文脈に応じた表現を計算するモジュール型グラフニューラルネットワークを導入し、その後、グラフベースのマッチングモジュールにより、グローバルに一貫した語句の局所化を生成する。本手法は二段階の学習戦略に基づき、全体のグラフニューラルネットワークを共同で訓練し、Flickr30K Entitiesベンチマーク上で評価を行った。広範な実験結果から、本手法は従来の最先端手法を顕著な差で上回ることが示され、提案する接地フレームワークの有効性が裏付けられた。コードは https://github.com/youngfly11/LCMCG-PyTorch にて公開されている。