2ヶ月前

QPIC: クエリに基づく対象間のヒューマン-オブジェクト相互作用検出に画像全体の文脈情報を用いた手法

Tamura, Masato ; Ohashi, Hiroki ; Yoshinaga, Tomoaki

要約

私たちは、人間-物体相互作用（Human-Object Interaction: HOI）検出のための単純かつ直感的でありながら強力な方法を提案します。画像内のHOIは空間的に多様に分布しているため、既存のCNNベースの手法は以下の3つの主要な課題に直面しています。まず、CNNの局所性により画像全体の特徴を活用できない、次に、特徴量集約のために手動で定義された関心領域に依存しており、これが文脈的に重要な領域をカバーしていない場合がある、そして最後に、複数のHOIインスタンスが近接している場合、それらの特徴量を混同してしまう可能性があります。これらの課題を克服するために、私たちはアテンションメカニズムとクエリベース検出を主な役割とするトランスフォーマーに基づく特徴抽出器を提案します。アテンションメカニズムは画像全体から文脈的に重要な情報を効果的に集約することができ、一方で各クエリが最大でも1つの人間-物体ペアのみを捉えるように設計することで、複数インスタンスからの特徴量が混同されるのを防ぐことができます。このトランスフォーマーに基づく特徴抽出器によって生成される埋め込みは非常に効果的であるため、その後の検出ヘッドは比較的単純かつ直感的なもので済みます。詳細な分析結果によると、提案手法は文脈的に重要な特徴量を成功裏に抽出しており、既存手法に対して大幅な性能向上（HICO-DETにおいて5.37 mAPおよびV-COCOにおいて5.7 mAP）を達成しています。ソースコードは $\href{https://github.com/hitachi-rd-cv/qpic}{\text{こちら}}$ から入手可能です。