17日前

HOTR:Transformerを用いたエンドツーエンド型人間-オブジェクトインタラクション検出

Bumsoo Kim, Junhyun Lee, Jaewoo Kang, Eun-Sol Kim, Hyunwoo J. Kim
HOTR:Transformerを用いたエンドツーエンド型人間-オブジェクトインタラクション検出
要約

人間-物体インタラクション(HOI)検出は、画像内に存在する「インタラクションの集合」を同定するタスクであり、以下の2つの側面を含む:i)インタラクションの主体(すなわち人間)および対象(すなわち物体)の位置特定、ii)インタラクションラベルの分類。既存の大多数の手法は、人間と物体のインスタンスを個別に検出し、検出されたインスタンス同士のすべてのペアについて別々に推論することで、間接的にこのタスクに取り組んでいる。本論文では、トランスフォーマーのエンコーダ-デコーダアーキテクチャに基づき、画像から直接「<人間, 物体, インタラクション>」の三つ組を集合として予測する新たなフレームワーク、HOTRを提案する。集合予測を採用することで、本手法は画像内に内在する意味的関係を効果的に活用でき、従来手法の主要なボトルネックである時間的に重い後処理を不要とする。提案アルゴリズムは、物体検出後の推論時間が1ミリ秒未満で、2つのHOI検出ベンチマークにおいて最先端の性能を達成した。