11日前

DIRV:エンドツーエンド型人間-オブジェクトインタラクション検出のための密度付きインタラクション領域投票

Hao-Shu Fang, Yichen Xie, Dian Shao, Cewu Lu
DIRV:エンドツーエンド型人間-オブジェクトインタラクション検出のための密度付きインタラクション領域投票
要約

近年、人間-物体間インタラクション(HOI)検出は著しい進展を遂げている。しかし、従来の二段階型手法は推論速度が遅いという課題がある。一方で、既存の一段階型手法は主にインタラクションの領域の和集合(union regions)に注目しており、これによりHOI検出において不要な視覚情報がノイズとして混入する問題が生じる。上記の課題を解決するため、本稿ではHOI問題に新たな概念である「インタラクション領域(interaction region)」を導入し、新規の一段階型HOI検出手法DIRVを提案する。従来の手法とは異なり、本手法は人間-物体ペアごとに複数スケールで密にサンプリングされたインタラクション領域に注目することで、インタラクションに最も本質的な微細な視覚特徴を捉えることを可能にする。さらに、単一のインタラクション領域による検出の欠陥を補うため、従来の非最大抑制(Non-Maximal Suppression, NMS)ではなく、重複する複数のインタラクション領域を有効活用する新しい投票戦略を導入している。V-COCOおよびHICO-DETの2つの代表的なベンチマークにおいて実施した広範な実験の結果、本手法は既存の最先端手法を大きく上回る性能を達成するとともに、最も高速な推論速度と最も軽量なネットワークアーキテクチャを実現した。特に、追加の入力なしでV-COCOにおいて56.1 mAPを達成した。本研究のコードは公開されており、以下より入手可能である:https://github.com/MVIG-SJTU/DIRV

DIRV:エンドツーエンド型人間-オブジェクトインタラクション検出のための密度付きインタラクション領域投票 | 最新論文 | HyperAI超神経