Ancre d'Affordance à partir de Vidéo de Démonstration vers Image Cible

Les humains excellent dans l'apprentissage à partir de démonstrations d'experts et dans la résolution de leurs propres problèmes. Pour doter des robots et assistants intelligents, tels que les lunettes de réalité augmentée (AR), de cette capacité, il est essentiel d'ancrer les interactions manuelles humaines (c'est-à-dire les affordances) à partir de vidéos de démonstration et de les appliquer à une image cible comme la vue des lunettes AR d'un utilisateur. La tâche d'ancrage des affordances du vidéo vers l'image est complexe en raison (1) de la nécessité de prédire des affordances fines, et (2) des données d'entraînement limitées, qui ne couvrent pas adéquatement les disparités entre vidéo et image et affectent négativement l'ancrage. Pour relever ces défis, nous proposons Afformer (Affordance Transformer), qui dispose d'un décodeur basé sur un transformer finement granulaire permettant une amélioration progressive de l'ancrage des affordances. De plus, nous introduisons MaskAHand (Mask Affordance Hand), une technique d'auto-supervision pour le pré-entraînement visant à synthétiser des données vidéo-image et à simuler des changements de contexte, renforçant ainsi l'ancrage des affordances malgré les disparités entre vidéo et image. Afformer avec le pré-entraînement MaskAHand atteint des performances de pointe sur plusieurs benchmarks, y compris une amélioration substantielle de 37 % sur le jeu de données OPRA. Le code est disponible à l'adresse suivante : https://github.com/showlab/afformer.