11日前

グランス・アンド・ゲイズ:ワンステージ型人間-オブジェクトインタラクション検出のためのアクション認識ポイントの推定

Xubin Zhong, Xian Qu, Changxing Ding, Dacheng Tao
グランス・アンド・ゲイズ:ワンステージ型人間-オブジェクトインタラクション検出のためのアクション認識ポイントの推定
要約

現代のヒューマン・オブジェクトインタラクション(HOI)検出手法は、ワンステージ法とツーステージ法に大別される。ワンステージモデルは構造がシンプルであるため、計算効率に優れているが、精度面では依然としてツーステージ法が優位である。既存のワンステージモデルは、通常、事前に定義されたインタラクション領域やポイントを検出することから始まり、その後これらの領域にのみ注目してインタラクションを予測する。このため、判別力のある特徴量を動的に探索する推論ステップが欠如している。本論文では、新たなワンステージ手法として、グランス・アンド・ゲイズ・ネットワーク(GGNet)を提案する。GGNetは「グランス」(一瞥)と「ゲイズ」(凝視)の2段階プロセスを用いて、アクションに敏感なポイント(ActPoints)の集合を適応的にモデル化する。グランスステップでは、特徴マップ上の各ピクセルがインタラクションポイントであるかを迅速に判定する。その後、ゲイズステップではグランスステップで得られた特徴マップを活用し、各ピクセルの周辺に段階的にアクションに敏感なActPointsを適応的に推定する。さらに、精緻化されたActPointsの特徴を統合してインタラクションを予測する。また、検出された各インタラクションを適切な人-オブジェクトペアに効果的にマッチングするためのアクションに敏感なアプローチを設計するとともに、GGNetの最適化を向上させるための新規なハードネガティブアテンション損失を導入した。上記のすべての処理は、特徴マップ上のすべてのピクセルに対して同時にかつ効率的に実行される。最終的に、GGNetはV-COCOおよびHICODETの両ベンチマークにおいて、最先端手法を大きく上回る性能を達成した。GGNetの実装コードは、以下のURLから公開されている:https://github.com/SherlockHolmes221/GGNet。

グランス・アンド・ゲイズ:ワンステージ型人間-オブジェクトインタラクション検出のためのアクション認識ポイントの推定 | 最新論文 | HyperAI超神経