3ヶ月前

テキストto画像ディフュージョンモデルを用いたヒューマンオブジェクトインタラクション検出の向上

Jie Yang, Bingliang Li, Fengyu Yang, Ailing Zeng, Lei Zhang, Ruimao Zhang
テキストto画像ディフュージョンモデルを用いたヒューマンオブジェクトインタラクション検出の向上
要約

本稿では、現在のHOI(ヒューマンオブジェクトインタラクション)検出手法における課題を検討し、事前学習済みのテキスト-画像拡散モデルを基盤とする新たなHOI検出手法であるDiffHOIを提案する。DiffHOIは、データの多様性の向上およびHOI表現の強化を通じて、検出器の性能を向上させる。我々は、固定されたテキストから画像への拡散モデルの内部表現空間が、動詞概念およびそれらに対応する文脈と強く関連していることを実証した。これに基づき、固定された拡散モデルおよびCLIPモデルから、さまざまな意味的関連表現を抽出するアダプタ型チューニング手法を提案する。この手法により、事前学習済み検出器からの人間およびオブジェクト表現を強化し、インタラクション予測における曖昧性を低減する。さらに、HOIデータセットにおけるクラス不均衡やデータ不足の課題を解決するため、14万枚以上のHOI画像を含み、完全な三つ組(triplet)アノテーションが付与された、クラスバランスが取られ、大規模かつ高多様性な合成データセットであるSynHOIを提案する。SynHOIは、自動的かつスケーラブルなパイプラインを用いて構築されており、多様で高精度なHOIアノテーションデータの大量生成を可能にしている。このデータセットは、既存データセットにおける長尾問題を効果的に緩和し、インタラクション表現の学習を促進する。広範な実験により、DiffHOIが従来の最先端手法に比べ、通常の検出(41.50 mAP)およびゼロショット検出において顕著な性能向上を示すことが確認された。さらに、SynHOIはモデル非依存かつバックボーン非依存なHOI検出においても性能を向上させ、特に稀少クラスにおいて11.55%のmAP向上を達成し、優れた効果を示した。

テキストto画像ディフュージョンモデルを用いたヒューマンオブジェクトインタラクション検出の向上 | 論文 | HyperAI超神経