
要約
人間と物体のインタラクション(HOI)検出という困難な問題に取り組む。従来の手法は、人間と物体のペアごとに独立してインタラクションを認識するか、複雑な外観ベースの特徴に基づいて同時推論を行う。本論文では、各人間-物体ペアを抽象的な空間的・意味的表現で記述し、二重関係グラフ(人間中心と物体中心の二つのグラフ)を用いてシーンの文脈情報を集約する。提案する二重関係グラフは、シーンから判別性の高い手がかりを効果的に捉え、局所的な予測に起因する曖昧さを解消する。本モデルは概念的に単純であり、2つの大規模ベンチマークデータセットにおいて、最先端のHOI検出アルゴリズムと比較して優れた結果を達成している。