
要約
人間-物体相互作用(HOI)検出の目的は、画像内の人間と物体との関係を局所化し推論することである。この課題は、物体と動詞の種類の膨大な数の可能な組み合わせが長尾分布を形成するため、非常に困難である。我々は、単純でありながら効率的な深層視覚合成学習(VCL: Visual Compositional Learning)フレームワークを開発した。VCLはまずHOI表現を物体特有の特徴と動詞特有の特徴に分解し、次に分解された特徴をつなぎ合わせることで特徴空間内で新しい相互作用サンプルを生成する。分解と合成の統合により、VCLは異なるHOIサンプルや画像間での物体および動詞特徴の共有を可能にし、新しい相互作用サンプルや新しいタイプのHOIを生成することができ、これにより長尾分布問題が大幅に緩和され、低ショットまたはゼロショットのHOI検出にも寄与する。広範な実験結果から、提案されたVCLがHICO-DETおよびV-COCOにおいてHOI検出の汎化性能を効果的に向上させ、HICO-DETにおける最近の最先端手法を上回ることが示された。コードはhttps://github.com/zhihou7/VCL で公開されている。