13日前
2段階型および1段階型HOI検出の利点を解明する
Aixi Zhang, Yue Liao, Si Liu, Miao Lu, Yongliang Wang, Chen Gao, Xiaobo Li

要約
数年間にわたり、二段階型手法が人間-オブジェクト連携(HOI)検出の主流を占めてきた。近年、一段階型HOI検出手法が注目を集めつつある。本論文では、二段階型と一段階型手法の本質的な長所と短所を明らかにすることを目的とする。その目的の下で、従来の二段階型手法は主に、正の相互作用を持つ人間-オブジェクトペアの位置推定に課題を抱えているのに対し、一段階型手法は、オブジェクト検出と相互作用分類という複数のタスク学習における適切なトレードオフを達成することが困難であることを明らかにした。したがって、核心的な課題は、従来の二種類の手法から本質的な部分を抽出し、欠点を排除することにある。この課題に応えるために、我々は、人間-オブジェクト検出と相互作用分類を段階的に分離する新しい一段階型フレームワークを提案する。具体的には、最先端の一段階型HOI検出器から相互作用分類モジュール(ヘッド)を除去し、人間-オブジェクトペア生成器を設計した上で、各ペアに対して独立した相互作用分類器を構築した。提案するフレームワークには、検出と相互作用分類のそれぞれに特化した2つの段階的デコーダを採用しており、各デコーダが特定のタスクに集中できるように設計されている。実装面では、TransformerベースのHOI検出器をベースモデルとして採用した。新たに導入した分離型アーキテクチャは、既存手法を大幅に上回り、HICO-Detデータセットにおいて9.32%の相対的なmAP向上を達成した。ソースコードは以下のURLで公開されている:https://github.com/YueLiao/CDN。