Réseau modulaire basé sur la posture pour la détection d'interactions homme-objet

La détection des interactions homme-objet (HOI) constitue une tâche essentielle dans la compréhension des scènes. Son objectif est d'inférer le triplet présent dans une scène. Dans ce travail, nous observons que la pose humaine elle-même, ainsi que les informations spatiales relatives entre la pose humaine et l'objet cible, peuvent fournir des indices informatifs pour la détection HOI. Nous proposons un réseau modulaire basé sur la pose (Pose-based Modular Network, PMN), qui exploite à la fois les caractéristiques de pose absolue et les caractéristiques spatiales relatives de la pose afin d'améliorer la détection HOI, tout en étant entièrement compatible avec les réseaux existants. Notre module comporte deux branches : la première traite indépendamment les caractéristiques spatiales relatives de chaque articulation ; la seconde met à jour les caractéristiques de pose absolue via des structures de graphe entièrement connectées. Les caractéristiques de pose ainsi traitées sont ensuite transmises à un classificateur d’actions. Pour évaluer notre méthode, nous intégrons ce module au modèle de pointe actuel, VS-GATs, et obtenons une amélioration significative sur deux benchmarks publics : V-COCO et HICO-DET, ce qui démontre son efficacité et sa flexibilité. Le code source est disponible à l’adresse suivante : \url{https://github.com/birlrobotics/PMN}.