
要約
我々は、画像内の物体とその関係を検出する上で効果的かつ効率的な新しいシーングラフ生成モデルであるGraph R-CNNを提案します。本モデルには、画像内の物体間の二次的な潜在的関係を効率的に処理するための関係提案ネットワーク(Relation Proposal Network: RePN)が含まれています。また、物体と関係間の文脈情報を効果的に捉えるための注意付きグラフ畳み込みネットワーク(attentional Graph Convolutional Network: aGCN)も提案しています。最後に、既存の評価指標よりも包括的で現実的な新しい評価指標を導入します。既存および我々が提案した評価指標を使用して評価した結果、シーングラフ生成における最先端の性能を報告しています。