13日前

シーングラフ生成における局所から全体への相互作用による課題の対処

Sangmin Woo, Junhyug Noh, Kangil Kim
シーングラフ生成における局所から全体への相互作用による課題の対処
要約

本研究では、シーングラフ生成(Scene Graph Generation: SGG)タスクの背後にある課題について新たな知見を提供することを目的とする。Visual Genomeデータセットに対する定量的・定性的な分析から、以下の3つの課題が明らかになった。1)曖昧性:同じ物体(または述語)を含む対象間の関係であっても、視覚的・意味的に類似しているとは限らない。2)非対称性:関係の方向性が本質的に存在するにもかかわらず、従来の研究ではその方向性を十分に扱えていない。3)高次の文脈:特定のグラフ要素の識別情報を活用することで、正確なシーングラフの生成が可能になる。これらの分析を踏まえ、本研究では新たなSGGフレームワーク「Local-to-Global Interaction Networks(LOGIN)」を提案する。局所的に、主語・目的語・背景の3つのインスタンス間の本質的な相互作用を抽出し、主語と目的語の入力順序を明示的に制約することで、方向性の認識をネットワークに組み込む。グローバルには、グラフの各構成要素(ノードおよびエッジ)間の文脈をエンコードする。さらに、述語埋め込みの分布を微調整するために「Attract & Repel損失」を導入する。本フレームワークは、下位から上位への推論アプローチを採用し、各要素間の補完性を活用できるように設計されている。LOGINが関係の方向性をどの程度認識しているかを定量化するため、新たな診断タスク「Bidirectional Relationship Classification(BRC)」も提案した。実験結果から、LOGINは従来手法よりもBRCタスクにおいて関係の方向性を明確に区別できることを示し、Visual GenomeベンチマークにおけるSGGタスクでも最先端の性能を達成した。