
要約
これまでの大多数のHOI(人間-物体相互作用)手法は、より優れた人間-物体特徴を学習することに注力しているが、本研究では、新たなかつ補完的なアプローチである「カテゴリクエリ学習」を提案する。このクエリは、相互作用カテゴリに明示的に関連付けられ、Transformerデコーダを介して画像固有のカテゴリ表現に変換され、補助的な画像レベル分類タスクを通じて学習される。このアイデアは、以前のマルチラベル画像分類手法に着想を得ているが、本研究で初めて困難な人間-物体相互作用分類タスクに適用されたものである。本手法はシンプルでありながら汎用性が高く、効果的である。3つの代表的なHOIベースラインで検証され、2つのベンチマークにおいて新たなSOTA(最先端)性能を達成した。