HyperAIHyperAI

Command Palette

Search for a command to run...

QPIC: クエリに基づく対象間のヒューマン-オブジェクト相互作用検出に画像全体の文脈情報を用いた手法

Masato Tamura Hiroki Ohashi Tomoaki Yoshinaga

概要

私たちは、人間-物体相互作用(Human-Object Interaction: HOI)検出のための単純かつ直感的でありながら強力な方法を提案します。画像内のHOIは空間的に多様に分布しているため、既存のCNNベースの手法は以下の3つの主要な課題に直面しています。まず、CNNの局所性により画像全体の特徴を活用できない、次に、特徴量集約のために手動で定義された関心領域に依存しており、これが文脈的に重要な領域をカバーしていない場合がある、そして最後に、複数のHOIインスタンスが近接している場合、それらの特徴量を混同してしまう可能性があります。これらの課題を克服するために、私たちはアテンションメカニズムとクエリベース検出を主な役割とするトランスフォーマーに基づく特徴抽出器を提案します。アテンションメカニズムは画像全体から文脈的に重要な情報を効果的に集約することができ、一方で各クエリが最大でも1つの人間-物体ペアのみを捉えるように設計することで、複数インスタンスからの特徴量が混同されるのを防ぐことができます。このトランスフォーマーに基づく特徴抽出器によって生成される埋め込みは非常に効果的であるため、その後の検出ヘッドは比較的単純かつ直感的なもので済みます。詳細な分析結果によると、提案手法は文脈的に重要な特徴量を成功裏に抽出しており、既存手法に対して大幅な性能向上(HICO-DETにおいて5.37 mAPおよびV-COCOにおいて5.7 mAP)を達成しています。ソースコードは \href\href{https://github.com/hitachi-rd-cv/qpic}{\text{こちら}}\href から入手可能です。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています