
人間-物体インタラクション(HOI)検出は、人間中心のシーン理解タスクにおいて重要な役割を果たす。従来の研究では、同じ動詞が異なるHOIカテゴリにおいて類似した視覚的特徴を持つと仮定する傾向があるが、このアプローチは動詞が持つ多義的な意味の多様性を無視している。本稿では、この問題に対処するため、動詞の視覚的多義性を解読する新たなネットワークである「Polysemy Deciphering Network(PD-Net)」を提案する。PD-Netは、HOI検出において動詞の多義性を3つの異なる方法で解明する。第一に、新たな2つのモジュール、すなわち「Language Prior-guided Channel Attention(LPCA)」と「Language Prior-based Feature Augmentation(LPFA)」を用いて、HOI検出に適した多義性に配慮した特徴表現を精緻化する。LPCAは、各HOIカテゴリに応じて人間および物体の外見特徴における重要要素を強調する。また、LPFAは言語的事前知識(language prior)を用いて、人間のポーズ特徴および空間特徴を拡張し、動詞分類器に言語的なヒントを供給することで、同一動詞のカテゴリ内変動を低減する。第二に、新たな「Polysemy-Aware Modal Fusion(PAMF)」モジュールを導入する。このモジュールは、言語的事前知識に基づいて各特徴タイプの重要度を評価し、PD-Netがより重要な特徴に基づいて判断を行うように指導する。第三に、意味的に類似したHOIカテゴリにおいて動詞分類器を共有することで、動詞の多義性問題を緩和するアプローチを提案する。さらに、動詞の多義性問題に関する研究を促進するため、現実世界で多様な意味を持つ一般的な動詞(述語)を含む新しいベンチマークデータセット「HOI-VerbPolysemy(HOIVP)」を構築した。最後に、動詞の視覚的多義性を解読する本手法は、HICO-DET、V-COCO、HOI-VPの各データセットにおいて、最先端の手法を大幅に上回る性能を実証した。本論文のコードおよびデータは、https://github.com/MuchHair/PD-Net にて公開されている。