Apprentissage des interactions humain-objet par des réseaux de neurones d'analyse graphique

Ce document traite de la tâche de détection et de reconnaissance des interactions humain-objet (HOI) dans les images et les vidéos. Nous présentons le Graph Parsing Neural Network (GPNN), un cadre qui intègre des connaissances structurales tout en étant différentiable de bout en bout. Pour une scène donnée, le GPNN infère un graphe d'analyse qui comprend i) la structure du graphe HOI représentée par une matrice d'adjacence, et ii) les étiquettes des nœuds. Dans un cadre d'inférence par passage de messages, le GPNN calcule itérativement les matrices d'adjacence et les étiquettes des nœuds. Nous évaluons notre modèle de manière exhaustive sur trois benchmarks de détection HOI pour les images et les vidéos : les jeux de données HICO-DET, V-COCO et CAD-120. Notre approche surpasse significativement les méthodes actuelles, confirmant que le GPNN est évolutif pour de grands jeux de données et s'applique aux paramètres spatio-temporels. Le code est disponible à l'adresse suivante : https://github.com/SiyuanQi/gpnn.