11日前

人間物体相互作用検出におけるTransformerにおけるデコード経路拡張を用いた一貫性学習

Jihwan Park, SeungJun Lee, Hwan Heo, Hyeong Kyu Choi, Hyunwoo J.Kim

要約

人間-オブジェクト相互作用検出（Human-Object Interaction detection, HOI検出）は、オブジェクト検出とインタラクション分類の両方を含む包括的な視覚認識タスクである。従来のHOI検出手法は、部分的な予測のさまざまな組み合わせによって実現されてきた。例えば、画像 → HO（人間-オブジェクト） → I（インタラクション）、または画像 → HI（人間-インタラクション） → O（オブジェクト）といった推論経路が提案されている。近年、トランスフォーマーに基づくHOI検出アーキテクチャが登場し、エンドツーエンドの形でHOIトリプレット（人間-オブジェクト-インタラクション）を直接予測する手法が実現されている（画像 → HOI）。本研究は、HOI検出における多様な推論経路に着目し、新たなエンドツーエンド学習戦略として「クロスパス一貫性学習（Cross-path Consistency Learning, CPC）」を提案する。CPCは、拡張されたデコード経路を活用することで、トランスフォーマー型モデルのHOI検出性能を向上させる。この学習戦略は、置換された推論シーケンスから得られるすべての可能な予測が一貫性を持つように制約する。この単純な枠組みにより、モデルは一貫性のある表現を学習し、モデル容量を増加させることなく一般化性能を向上させる。実験結果から、本手法の有効性が確認され、V-COCOおよびHICO-DETの両データセットにおいて、ベースラインモデルと比較して顕著な性能向上を達成した。本研究のコードは、https://github.com/mlvlab/CPChoi にて公開されている。