HyperAIHyperAI
il y a 11 jours

Exploration du contexte visuel prédicatif dans la détection des interactions homme-objet

Frederic Z. Zhang, Yuhui Yuan, Dylan Campbell, Zhuoyao Zhong, Stephen Gould
Exploration du contexte visuel prédicatif dans la détection des interactions homme-objet
Résumé

Récemment, le cadre DETR est apparu comme l'approche dominante dans la recherche sur les interactions homme-objet (HOI). En particulier, les détecteurs HOI à deux étapes basés sur les transformateurs se distinguent par leurs performances élevées et leur efficacité en apprentissage. Toutefois, ces approches conditionnent souvent la classification des interactions sur des caractéristiques d'objets dépourvues d'informations contextuelles fines, en privilégiant des indices visuels relatifs à l'identité de l'objet et aux extrémités de sa boîte englobante au détriment des informations sur la posture et l'orientation. Ce choix limite naturellement la reconnaissance d'interactions complexes ou ambigües. Dans ce travail, nous examinons ces problèmes à l'aide de visualisations et de expériences soigneusement conçues. À cette fin, nous étudions comment réintroduire de manière optimale les caractéristiques d'image via une attention croisée. Grâce à une conception améliorée des requêtes, une exploration approfondie des clés et des valeurs, ainsi qu'à des embeddings positionnels des paires de boîtes servant de guide spatial, notre modèle, enrichi par un contexte visuel du prédicat (PViC), surpasser les méthodes de pointe sur les benchmarks HICO-DET et V-COCO, tout en maintenant un coût d'entraînement faible.

Exploration du contexte visuel prédicatif dans la détection des interactions homme-objet | Articles de recherche récents | HyperAI