未知不再是未知:CLIPを活用した生成型ゼロショットHOI検出の可能性を解き放つ

ゼロショット人間-オブジェクトインタラクション(HOI)検出器は、訓練中に遭遇しなかったHOIカテゴリに対しても一般化が可能である。CLIPが提供する驚異的なゼロショット能力に着想を得て、最近の手法はCLIPの埋め込みを活用してゼロショットHOI検出の性能を向上させようとしている。しかし、これらの埋め込みベースの手法は、訓練時に観測されたクラスのみで分類器を学習するため、推論時に見られていたクラスと見られなかったクラスの間に必然的に混同が生じる。さらに、プロンプトチューニングやアダプターを用いることで、見られていたクラスと見られなかったクラスの精度の差がさらに拡大することが明らかになった。この課題に対処するため、本研究ではCLIPを活用したゼロショットHOI検出のための初の生成ベースモデル、HOIGenを提案する。本モデルは、CLIPを単なる特徴抽出ではなく、特徴生成の可能性を解放することを可能にする。その実現のため、人間・オブジェクト・ユニオン特徴の生成に合わせてCLIPを統合した特徴生成器を設計した。その後、既存のサンプルから現実的な特徴を抽出し、それらを合成された特徴と混合することで、学習時に見られていたクラスと見られなかったクラスを同時に扱えるようにした。さらに、ペアワイズHOI認識ブランチにおいて生成型プロトタイプバンクを構築し、画像単位のHOI認識ブランチではマルチ知識プロトタイプバンクを構築することで、HOIスコアの豊かさを向上させた。HICO-DETベンチマークにおける広範な実験結果から、本手法HOIGenは、他の最先端手法と比較して、さまざまなゼロショット設定下で見られていたクラスおよび見られなかったクラスの両方において優れた性能を達成することが示された。コードは以下のURLから公開されている:https://github.com/soberguo/HOIGen