
要約
人間-物体インタラクション(HOI)検出は、人間と物体のペアを局所化し、そのインタラクションを認識することを目的としています。近年、対照的言語-画像事前学習(CLIP)は、知識蒸留を用いてHOI検出器にインタラクションに関する事前知識を提供するという観点で大きな可能性を示しています。しかし、こうしたアプローチはしばしば大規模な学習データに依存しており、少数/ゼロショットの設定においては性能が劣ることがあります。本論文では、CLIPから効率的に事前知識を抽出し、より優れた汎化性能を達成する新たなHOI検出フレームワークを提案します。具体的には、まず、クロスアテンション機構を用いてCLIPの視覚特徴マップから情報量の多い領域を抽出する新しいインタラクションデコーダを導入し、それを知識統合ブロックを通じて検出バックボーンと融合することで、より正確な人間-物体ペアの検出を実現します。さらに、CLIPのテキストエンコーダに内在する事前知識を活用して、HOIの記述を埋め込み表現として用いて分類器を生成します。細かいインタラクションの区別を可能にするために、視覚的意味的算術(visual semantic arithmetic)を用いて訓練データから動詞分類器を構築し、軽量な動詞表現アダプタを導入します。また、CLIPからのグローバルなHOI予測を活用するための訓練不要な強化手法も提案しています。広範な実験により、本手法がさまざまな設定において最先端の手法を大きく上回ることを示しており、特にHICO-Detでは+4.04 mAPの性能向上を達成しました。ソースコードは以下のURLで公開されています:https://github.com/Artanic30/HOICLIP。