Regarder et fixer : Inférer des points sensibles aux actions pour la détection unistage des interactions homme-objet

Les approches modernes de détection d'interactions homme-objet (HOI) peuvent être classées en méthodes à une étape et méthodes à deux étapes. Les modèles à une étape sont généralement plus efficaces grâce à leurs architectures directes, mais les modèles à deux étapes conservent un avantage significatif en termes de précision. Les méthodes à une étape existantes commencent généralement par détecter des régions ou points d’interaction prédéfinis, puis se concentrent uniquement sur ces régions pour la prédiction d’interactions ; elles manquent ainsi d’étapes de raisonnement dynamique permettant de rechercher activement des indices discriminants. Dans cet article, nous proposons une nouvelle méthode à une étape, nommée Glance and Gaze Network (GGNet), qui modélise de manière adaptative un ensemble de points action-sensibles (ActPoints) via deux étapes : glance (regard rapide) et gaze (regard attentif). L’étape de glance permet rapidement de déterminer si chaque pixel de la carte de caractéristiques constitue un point d’interaction. L’étape de gaze exploite les cartes de caractéristiques générées par l’étape de glance pour inférer progressivement, de manière adaptative, des ActPoints autour de chaque pixel. Les caractéristiques des ActPoints affinés sont ensuite agrégées pour la prédiction d’interactions. En outre, nous avons conçu une approche action-sensible permettant d’associer efficacement chaque interaction détectée à sa paire homme-objet correspondante, ainsi qu’une nouvelle fonction de perte de négatifs durs attentive afin d’améliorer l’optimisation de GGNet. Toutes ces opérations sont effectuées simultanément et de manière efficace pour l’ensemble des pixels des cartes de caractéristiques. Enfin, GGNet dépasse significativement les méthodes de pointe sur les benchmarks V-COCO et HICODET. Le code source de GGNet est disponible à l’adresse suivante : https://github.com/SherlockHolmes221/GGNet.