
要約
本稿では、画像内のフレーズ接地(phrase grounding)を目的とした新しいグラフ学習フレームワークを提案する。従来の手法は、順次的なグラフモデルから密なグラフモデルへと発展してきたが、粗いスケールの文脈情報を捉えることはできても、フレーズと画像領域間の文脈の多様性を区別することができないという課題を抱えている。これに対して、本研究ではシーングラフの文脈に内包される異なるモチーフ(motif)に着目し、モチーフに敏感な文脈情報を表現に統合するための「分離型グラフネットワーク(disentangled graph network)」を設計した。さらに、特徴量レベルおよび構造レベルの両方で介入的(interventional)な戦略を導入することで、表現の強化と汎化を図った。最終的に、マルチモーダルなアテンションネットワークを用いて、モーダル内特徴を融合し、各フレーズと画像領域との類似度を計算することで、最も適切な接地結果を選定する。本研究で提案する分離型かつ介入型グラフネットワーク(DIGN)の有効性は、多数のアブレーションスタディを通じて検証され、Flickr30K EntitiesおよびReferIt Gameのベンチマークにおいて、最先端(state-of-the-art)の性能を達成した。