人間-オブジェクトインタラクション検出のための転移可能なインタラクティビティ知識

人間-物体相互作用(HOI)検出は、人間が物体とどのように相互作用しているかを理解する上で重要な課題である。本論文では、人間と物体が相互作用しているかどうかを示す「相互作用性(interactiveness)」の知識に着目する。我々は、この相互作用性の知識が複数のHOIデータセット間で学習可能であり、異なるHOIカテゴリ設定間のギャップを埋めることができるという発見を行った。本研究の核心的なアイデアは、複数のHOIデータセットから一般化された相互作用性の知識を学習するための「相互作用ネットワーク」を活用し、推論段階におけるHOI分類の前段階で「非相互作用抑制(Non-Interaction Suppression, NIS)」を実施することにある。相互作用性の一般化能力に着目した本ネットワークは、移行可能な知識学習器として機能し、任意のHOI検出モデルと連携することで良好な性能を達成できる。さらに、人間インスタンスおよび身体部位の特徴を統合的に活用することで、階層的な枠組み(インスタンスレベルおよび身体部位レベル)において相互作用性を学習する。その後、より深い相互作用的な視覚的特徴を抽出・学習するための「一貫性タスク(consistency task)」を提案した。本手法は、HICO-DET、V-COCO、および新たに構築したPaStaNet-HOIデータセットにおいて広範な評価を実施した。学習された相互作用性を活用することで、最先端のHOI検出手法を上回る性能を達成し、本手法の有効性と柔軟性を実証した。コードは以下のURLから入手可能である:https://github.com/DirtyHarryLYL/Transferable-Interactiveness-Network。