Points chauds d'interaction homme-objet ancrés dans la vidéo

L'apprentissage de l'interaction avec des objets est une étape cruciale vers l'intelligence visuelle incarnée, mais les techniques existantes souffrent d'une supervision ou de besoins en capteurs trop importants. Nous proposons une approche pour apprendre les points d'interaction « hotspots » entre humains et objets directement à partir de vidéos. Au lieu de traiter les affordances comme une tâche de segmentation sémantique supervisée manuellement, notre méthode apprend les interactions en observant des vidéos comportant des comportements humains réels et en anticipant les actions possibles. Étant donné une nouvelle image ou vidéo, notre modèle infère une carte spatiale de hotspots indiquant comment un objet serait manipulé lors d'une interaction potentielle -- même si l'objet est actuellement au repos. Grâce aux résultats obtenus avec des vidéos en première et troisième personne, nous démontrons la valeur de fonder les affordances sur des interactions réelles entre humains et objets. Non seulement nos hotspots faiblement supervisés sont-ils compétitifs par rapport aux méthodes fortement supervisées d'affordance, mais ils peuvent également anticiper l'interaction avec des catégories d'objets inédites.