
人間-物体インタラクション(Human-Object Interaction, HOI)は、コンピュータビジョンにおける重要な課題であり、人間と物体のペアの位置特定およびそれらの間のインタラクション関係の識別を必要とする。HOIインスタンスは、個々の物体インスタンスと比べて空間的・スケール的・タスク的範囲が広いため、ノイズの多い背景の影響を受けやすくなる。この問題を緩和するためには、入力画像の情報を適切に活用して細粒度なアンカーを生成し、そのアンカーを用いてHOIインスタンスの検出をガイドすることが不可欠である。しかし、以下の理由からこのアプローチは困難である。i) 複雑な背景情報を有する画像から重要な特徴量を効果的に抽出する方法は未解決の問題である。ii) 抽出された特徴量とクエリ埋め込み(query embeddings)を意味論的に整合させる手法も依然として課題である。本研究では、上記の課題を緩和するため、エンド・ツー・エンド型のトランスフォーマーに基づく新規フレームワーク「FGAHOI」を提案する。FGAHOIは、多スケールサンプリング(Multi-scale Sampling, MSS)、階層的空間意識マージ(Hierarchical Spatial-aware Merging, HSAM)、タスク意識マージ機構(Task-aware Merging, TAM)の3つの専用モジュールから構成される。MSSは、さまざまなスケールのHOIインスタンスに対応するため、ノイズの多い背景から人間、物体、およびインタラクション領域の特徴量を抽出する。HSAMとTAMは、それぞれ空間的階層性とタスク的視点から抽出された特徴量とクエリ埋め込みを意味論的に整合・マージする。さらに、FGAHOIが担う過度に複雑なタスクによる学習負荷を軽減するため、段階的学習戦略(Stage-wise Training Strategy)を新たに設計した。また、HOI検出の難易度を評価するための2つの新たな指標を提案するとともに、人間-物体ペアの不均一な領域分布および遠距離視覚モデリングという2つの課題に対応する新規データセット「HOI-SDC」を構築した。