オブジェクト誘導型クロスモーダル補正意味構造を用いた人間-オブジェクトインタラクションの検出

人間-物体インタラクション(HOI)検出は、細粒度の視点から人間中心の画像を理解する上で重要なタスクである。近年、エンドツーエンド型のHOI検出モデルが急速に発展しているが、これらのモデルは人間・物体の並列検出と動詞クラス予測の枠組みを採用しており、二段階手法に特有の「物体誘導型階層構造」の利点を失っている。実際、一つのHOIトリプルにおける物体は、予測すべき動詞に関する直接的な手がかりを提供する。本論文では、物体誘導型の統計的事前知識を活用することで、エンドツーエンド型モデルの性能を向上させることを目的とする。具体的には、動詞意味モデル(Verb Semantic Model, VSM)を導入し、意味的集約(semantic aggregation)を通じてこの物体誘導型階層構造の恩恵を享受する手法を提案する。また、VSMがHOIデータセットの事前知識と整合するよう最適化するため、類似度KL(Similarity KL, SKL)損失関数を提案する。さらに、従来の静的意味表現による制約を克服するため、クロスモダリティに敏感な視覚的・意味的特徴を生成するためのクロスモダリティキャリブレーション(Cross-Modal Calibration, CMC)を導入する。上記のモジュールを統合することで、物体誘導型クロスモダリティキャリブレーションネットワーク(Object-guided Cross-modal Calibration Network, OCN)を構築した。2つの代表的なHOI検出ベンチマーク上での実験により、統計的事前知識を組み込むことの有効性が実証され、最先端の性能を達成した。詳細な分析から、提案手法はより強力な動詞予測器として機能するとともに、事前知識をより効果的に活用する新たなアプローチであることが示された。実装コードは以下のURLから公開されている:\url{https://github.com/JacobYuan7/OCN-HOI-Benchmark}。