RLIP:人間-オブジェクトインタラクション検出のための関係性言語-画像事前学習

人間・物体間インタラクション(HOI)検出の課題は、人間が環境とどのように相互作用しているかを細粒度で視覚的に解析することを目的としており、多岐にわたる応用を可能にする。これまでの研究では、精度の高いHOI検出の実現に向け、効果的なアーキテクチャ設計および関連する手がかりの統合の有効性が示されている。しかし、このタスクに適した事前学習戦略の設計については、現行のアプローチでは十分に検討されていない。このギャップを埋めるために、本研究では関係性を含むエンティティおよび関係の記述を活用する対照的(contrastive)事前学習戦略である「関係性言語・画像事前学習(Relational Language-Image Pre-training, RLIP)」を提案する。この事前学習戦略を効果的に活用するため、以下の3つの技術的貢献を行う:(1)エンティティ検出と関係推論を並列かつ逐次的に処理する新規アーキテクチャ「Parallel entity detection and Sequential relation inference(ParSe)」。このアーキテクチャにより、包括的最適化された事前学習プロセスにおいて、エンティティと関係の両方の記述を統合的に活用可能となる;(2)ミニバッチ内での言語データ量を拡張するための合成データ生成フレームワーク「Label Sequence Extension」。これにより、事前学習に使用可能な言語データのスケールを大幅に拡大できる;(3)曖昧性やノイズを含むサンプルの影響を軽減するための機構として、「関係性品質ラベル(Relation Quality Labels)」と「関係性擬似ラベル(Relation Pseudo-Labels)」を導入。広範な実験を通じて、これらの貢献を統合したRLIP-ParSeが、ゼロショット、フェイショット、ファインチューニングにおけるHOI検出性能の向上だけでなく、ノイズのあるアノテーションからの学習に対するロバスト性の向上にも寄与することを実証した。コードは https://github.com/JacobYuan7/RLIP にて公開される予定である。