ConsNet : Apprentissage d’un graphe de cohérence pour la détection zéro-shot d’interactions homme-objet

Nous considérons le problème de la détection des interactions homme-objet (HOI), qui vise à localiser et à reconnaître des instances d’interaction HOI sous la forme de triplets dans les images. La plupart des travaux existants traitent les interactions HOI comme des catégories d’interaction individuelles, ce qui les rend incapables de gérer efficacement les problèmes de distribution longue-queue (long-tail) et de polysemie des étiquettes d’action. Nous affirmons que les consistance multi-niveaux entre les objets, les actions et les interactions constituent des indices puissants pour générer des représentations sémantiques d’interactions rares ou auparavant inconnues. En exploitant les propriétés compositionnelles et relationnelles propres aux étiquettes HOI, nous proposons ConsNet, un cadre conscient des connaissances qui encode explicitement les relations entre objets, actions et interactions dans un graphe non orienté appelé graphe de consistance, et utilise des réseaux de graphes à attention (GATs) pour propager les connaissances entre les catégories HOI ainsi que leurs composants. Notre modèle prend en entrée les caractéristiques visuelles des paires homme-objet candidates et les embeddings de mots des étiquettes HOI, les projette dans un espace joint visuel-sémantique, puis obtient les résultats de détection en mesurant leurs similarités. Nous évaluons de manière exhaustive notre modèle sur les défis des jeux de données V-COCO et HICO-DET, et les résultats confirment que notre approche surpasser les méthodes de pointe dans les deux cadres de supervision complète et zéro-shot. Le code est disponible à l’adresse suivante : https://github.com/yeliudev/ConsNet.