Extraction de signaux interpersonnels pour l'apprentissage de l'interactivité des parties du corps dans la détection d'HOI

La détection des interactions homme-objet (HOI) joue un rôle fondamental dans la compréhension des activités. Bien que des progrès significatifs aient été réalisés, l’apprentissage de l’interactivité reste un défi majeur dans ce domaine : les méthodes existantes génèrent souvent des propositions redondantes de paires homme-objet négatives et peinent à extraire efficacement les paires interactives. Bien que l’interactivité ait été étudiée à la fois au niveau du corps entier et au niveau des parties du corps, et qu’elle contribue à améliorer le regroupement homme-objet, les travaux antérieurs se concentrent uniquement sur une seule personne cible (dans une perspective locale) et négligent les informations relatives aux autres personnes présentes dans l’image. Dans cet article, nous proposons que la comparaison simultanée des parties du corps de plusieurs personnes peut fournir des indices d’interactivité plus utiles et complémentaires. Autrement dit, pour apprendre l’interactivité des parties du corps d’un point de vue global : lors de la classification de l’interactivité d’une partie du corps d’une personne cible, les indices visuels sont exploités non seulement à partir de cette personne elle-même, mais également à partir des autres personnes présentes dans l’image. Nous construisons des cartes de salience des parties du corps basées sur l’attention auto-attention afin d’extraire des indices informatifs entre personnes et d’apprendre les relations globales entre toutes les parties du corps. Nous évaluons la méthode proposée sur des benchmarks largement utilisés, HICO-DET et V-COCO. Grâce à cette nouvelle perspective, l’apprentissage holistique de l’interactivité des parties du corps à la fois locale et globale atteint des améliorations significatives par rapport aux méthodes de pointe. Le code source est disponible à l’adresse suivante : https://github.com/enlighten0707/Body-Part-Map-for-Interactiveness.