13日前
人間-オブジェクトインタラクションの検出における述語視覚的文脈の探求
Frederic Z. Zhang, Yuhui Yuan, Dylan Campbell, Zhuoyao Zhong, Stephen Gould

要約
最近、DETRフレームワークが人間-オブジェクトインタラクション(HOI)研究における主流のアプローチとして浮上している。特に、二段階のTransformerベースのHOI検出器は、高い性能と高い学習効率を兼ね備えた最も優れた手法の一つである。しかし、こうした手法は、細粒度の文脈情報を欠いたオブジェクト特徴に依存してHOI分類を行うことが多く、オブジェクトのアイデンティティやボックスの端点に関する視覚的情報を重視する一方で、ポーズや向きに関する情報を無視している。このため、複雑または曖昧なインタラクションの認識が自然に困難になる。本研究では、可視化と丁寧に設計された実験を通じてこれらの課題を検討する。その結果、クロスアテンションを通じて画像特徴をいかに効果的に再導入するかを検証した。改善されたクエリ設計、キーと値の広範な探索、およびボックスペアの位置埋め込みを空間的ガイドとして用いることで、強化された述語視覚的文脈(PViC)を備えた本モデルは、HICO-DETおよびV-COCOベンチマークにおいて最先端の手法を上回る性能を達成しつつ、低い学習コストを維持している。