
要約
シーングラフ生成(Scene Graph Generation: SGG)は、画像内のオブジェクトを検出するとともに、それらの対ごとの関係性を同定することを目的としている。近年の研究では、シーングラフの3つの重要な特性——エッジの方向性情報、ノード間の優先度の違い、および関係性の長尾分布——が十分に検討されていない。本稿では、これらの3つの特性を包括的に活用することを目的として、グラフ特性感知ネットワーク(Graph Property Sensing Network: GPS-Net)を提案する。まず、ノード固有の文脈情報をノード特徴に追加し、三項線形モデル(tri-linear model)を用いてエッジの方向性を符号化する新しいメッセージ伝達モジュールを提案する。次に、トレーニング中にノード間の優先度の差を反映するため、ノード優先度感知損失(node priority sensitive loss)を導入する。これは、フォーカス損失(focal loss)における注目パラメータを調整するためのマッピング関数を設計することで実現される。さらに、関係性の出現頻度が長尾分布の影響を受けることから、まず分布を緩和し、その後、各主語-目的語ペアの視覚的特徴に基づいて分布を個別に調整する手法により、この問題を緩和する。系统的な実験により、提案手法の有効性が実証された。さらに、VG、OI、VRDの3つの代表的なデータベースにおいて、さまざまな設定および評価指標下で、従来の最先端手法を大きく上回る性能を達成した。コードおよびモデルは、\url{https://github.com/taksau/GPS-Net} にて公開されている。