11日前

GEN-VLKT:HOI検出における関連の簡素化とインタラクション理解の強化

Yue Liao, Aixi Zhang, Miao Lu, Yongliang Wang, Xiaobo Li, Si Liu
GEN-VLKT:HOI検出における関連の簡素化とインタラクション理解の強化
要約

人間-物体インタラクション(HOI)検出のタスクは、主に「人間-物体の関連付け」と「インタラクションの理解」という2つの核心的な問題に分けることができる。本論文では、従来のクエリ駆動型HOI検出器の課題を、これらの2つの観点から明らかにし、対応策を提示する。まず、関連付けの観点において、従来の二本枝アーキテクチャは複雑で高コストな後処理マッチングを必要とするのに対し、単一枝アーキテクチャは異なるタスク間での特徴の差異を無視している。これを解決するために、後処理マッチングを不要とする二本枝パイプラインを実現する「ガイド付き埋め込みネットワーク(Guided-Embedding Network: GEN)」を提案する。GENでは、人間と物体をそれぞれ独立したクエリセットを用いて検出するインスタンスデコーダーと、同じ位置にある人間と物体をペアとしてマークする「位置ガイド付き埋め込み(position Guided Embedding: p-GE)」を設計した。さらに、インタラクションを分類するインタラクションデコーダーを構築し、各インスタンスデコーダーレイヤーの出力から生成されるインスタンスガイド付き埋め込み(instance Guided Embedding: i-GE)をインタラクションクエリとして用いる。次に、インタラクションの理解に関する観点において、従来の手法は長尾分布問題およびゼロショット発見(zero-shot discovery)に弱い。本研究では、視覚言語事前学習モデルCLIPから知識を転移することで、インタラクション理解を強化する「視覚言語知識転移(Visual-Linguistic Knowledge Transfer: VLKT)」学習戦略を提案する。具体的には、CLIPを用いてすべてのラベルのテキスト埋め込みを抽出し、分類器の初期化に用い、GENとCLIP間の視覚特徴距離を最小化するためのミミック損失(mimic loss)を導入する。その結果、GEN-VLKTは複数のデータセットにおいて最先端手法を大きく上回り、特にHICO-Detでは+5.05 mAPの向上を達成した。ソースコードは以下のURLで公開されている:https://github.com/YueLiao/gen-vlkt。

GEN-VLKT:HOI検出における関連の簡素化とインタラクション理解の強化 | 最新論文 | HyperAI超神経