HyperAIHyperAI
il y a 2 mois

Apprentissage de l'ancrage des affordances visuelles à partir de vidéos de démonstration

Hongchen Luo; Wei Zhai; Jing Zhang; Yang Cao; Dacheng Tao
Apprentissage de l'ancrage des affordances visuelles à partir de vidéos de démonstration
Résumé

L'ancrage des affordances visuelles vise à segmenter toutes les régions d'interaction possibles entre les personnes et les objets à partir d'une image ou d'une vidéo, ce qui est bénéfique pour de nombreuses applications, telles que la saisie par les robots et la reconnaissance des actions. Cependant, les méthodes existantes s'appuient principalement sur les caractéristiques d'apparence des objets pour segmenter chaque région de l'image, ce qui pose deux problèmes : (i) il existe plusieurs régions possibles dans un objet avec lequel les personnes interagissent ; et (ii) il existe plusieurs interactions humaines possibles dans la même région de l'objet. Pour résoudre ces problèmes, nous proposons un réseau d'ancrage des affordances assisté par la main (Hand-aided Affordance Grounding Network, HAGNet) qui utilise les indices fournis par la position et l'action de la main dans les vidéos démonstratives pour éliminer les multiples possibilités et mieux localiser les régions d'interaction dans l'objet. Plus précisément, HAGNet dispose d'une structure à double branche pour traiter la vidéo démonstrative et l'image de l'objet. Pour la branche vidéo, nous introduisons une attention assistée par la main afin de renforcer la région autour de la main dans chaque frame de la vidéo, puis nous utilisons un réseau LSTM pour agréger les caractéristiques d'action. Pour la branche objet, nous introduisons un module de renforcement sémantique (Semantic Enhancement Module, SEM) afin que le réseau se concentre sur différentes parties de l'objet en fonction des classes d'action et nous utilisons une perte de distillation pour aligner les caractéristiques de sortie de la branche objet avec celles de la branche vidéo et transférer les connaissances de la branche vidéo à la branche objet. Les évaluations quantitatives et qualitatives sur deux jeux de données difficiles montrent que notre méthode a obtenu des résultats state-of-the-art en matière d'ancrage des affordances. Le code source sera rendu disponible au public.