HyperAIHyperAI

Command Palette

Search for a command to run...

Ancre d'Affordance à partir de Vidéo de Démonstration vers Image Cible

Joya Chen Difei Gao Kevin Qinghong Lin Mike Zheng Shou

Résumé

Les humains excellent dans l'apprentissage à partir de démonstrations d'experts et dans la résolution de leurs propres problèmes. Pour doter des robots et assistants intelligents, tels que les lunettes de réalité augmentée (AR), de cette capacité, il est essentiel d'ancrer les interactions manuelles humaines (c'est-à-dire les affordances) à partir de vidéos de démonstration et de les appliquer à une image cible comme la vue des lunettes AR d'un utilisateur. La tâche d'ancrage des affordances du vidéo vers l'image est complexe en raison (1) de la nécessité de prédire des affordances fines, et (2) des données d'entraînement limitées, qui ne couvrent pas adéquatement les disparités entre vidéo et image et affectent négativement l'ancrage. Pour relever ces défis, nous proposons Afformer (Affordance Transformer), qui dispose d'un décodeur basé sur un transformer finement granulaire permettant une amélioration progressive de l'ancrage des affordances. De plus, nous introduisons MaskAHand (Mask Affordance Hand), une technique d'auto-supervision pour le pré-entraînement visant à synthétiser des données vidéo-image et à simuler des changements de contexte, renforçant ainsi l'ancrage des affordances malgré les disparités entre vidéo et image. Afformer avec le pré-entraînement MaskAHand atteint des performances de pointe sur plusieurs benchmarks, y compris une amélioration substantielle de 37 % sur le jeu de données OPRA. Le code est disponible à l'adresse suivante : https://github.com/showlab/afformer.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp