iCAN : Réseau d'Attention Centré sur les Instances pour la Détection d'Interactions Homme-Objet

Ces dernières années ont vu des progrès rapides dans la détection et la reconnaissance d'instances d'objets individuels. Cependant, pour comprendre une situation dans une scène, les ordinateurs doivent être capables de reconnaître comment les humains interagissent avec les objets environnants. Dans cet article, nous abordons la tâche difficile de détecter les interactions humain-objet (HOI). Notre idée centrale est que l'apparence d'une personne ou d'une instance d'objet contient des indices informatifs sur les parties pertinentes de l'image à prendre en compte pour faciliter la prédiction de l'interaction. Pour exploiter ces indices, nous proposons un module d'attention centré sur l'instance qui apprend à mettre dynamiquement en évidence des régions de l'image en fonction de l'apparence de chaque instance. Un réseau basé sur l'attention de ce type nous permet d'agréger sélectivement les caractéristiques pertinentes pour la reconnaissance des HOIs. Nous validons l'efficacité du réseau proposé sur les jeux de données Verb in COCO et HICO-DET et montrons que notre approche se compare favorablement aux états de l'art.