Un réseau de convolution graphique sensible au squelette pour la détection d'interactions homme-objet

La détection des interactions homme-objet est essentielle pour une compréhension complète des scènes visuelles. En particulier, les connexions spatiales entre les humains et les objets constituent des indices importants pour raisonner sur ces interactions. À cet effet, nous proposons un réseau de convolution de graphe sensible au squelette pour la détection des interactions homme-objet, nommé SGCN4HOI. Notre réseau exploite les connexions spatiales entre les points clés humains et les points clés des objets afin de capturer leurs interactions structurelles fines à l’aide de convolutions de graphe. Il fusionne ces caractéristiques géométriques avec des caractéristiques visuelles et des caractéristiques de configuration spatiale extraites à partir des paires homme-objet. En outre, afin de mieux préserver les informations structurelles des objets et de faciliter la détection des interactions homme-objet, nous introduisons une nouvelle représentation des points clés des objets basée sur le squelette. La performance de SGCN4HOI est évaluée sur le jeu de données public V-COCO. Les résultats expérimentaux montrent que la méthode proposée surpasser les modèles les plus avancés basés sur les poses et atteint des performances compétitives par rapport à d'autres modèles.