3ヶ月前
インタラクション提案における構造認識型Transformerを用いた人間-オブジェクトインタラクション検出の探求
Yong Zhang, Yingwei Pan, Ting Yao, Rui Huang, Tao Mei, Chang-Wen Chen

要約
最近の高性能な人間-物体インタラクション(HOI)検出技術は、Transformerに基づく物体検出器(例:DETR)に大きく影響を受けています。しかし、これらの多くは、ワンステージ形式で単純なTransformerを用いてパラメトリックなインタラクションクエリをHOI予測の集合に直接マッピングしています。このアプローチでは、インタラクション間またはインタラクション内における豊かな構造的関係が十分に活用されていません。本研究では、HOI検出のための新しいTransformer型検出器、すなわち「インタラクション提案に対する構造認識型Transformer(STIP)」を提案します。この設計により、HOI集合の予測プロセスを二段階の連続的なフェーズに分解します。まず、インタラクション提案の生成を行い、その後、非パラメトリックなインタラクション提案を構造認識型Transformerを用いてHOI予測に変換します。構造認識型Transformerは、従来のTransformerに加えて、インタラクション提案間の包括的な意味的構造および各インタラクション提案内の人物・物体の局所的空間構造をエンコードすることで、より強固なHOI予測を実現します。V-COCOおよびHICO-DETベンチマーク上で実施された広範な実験により、STIPの有効性が実証され、最先端のHOI検出器と比較して優れた性能が報告されています。ソースコードは以下のURLで公開されています:\url{https://github.com/zyong812/STIP}。