il y a 15 jours

Pré-entraînement visuel masqué pour le contrôle moteur

Tete Xiao, Ilija Radosavovic, Trevor Darrell, Jitendra Malik

Résumé

Cette étude démontre que l'entraînement préalable visuel auto-supervisé à partir d'images du monde réel est efficace pour apprendre des tâches de contrôle moteur à partir de pixels. Nous entraînons d'abord les représentations visuelles par modélisation masquée d'images naturelles. Ensuite, nous figeons l'encodeur visuel et entraînons des contrôleurs à base de réseaux de neurones au-dessus avec une méthode d'apprentissage par renforcement. Nous n'effectuons aucune adaptation fine spécifique à la tâche de l'encodeur ; les mêmes représentations visuelles sont utilisées pour toutes les tâches de contrôle moteur. À notre connaissance, il s'agit du premier modèle auto-supervisé à exploiter à grande échelle des images du monde réel pour le contrôle moteur. Afin d'accélérer les progrès dans l'apprentissage à partir de pixels, nous proposons une suite de benchmarks comprenant des tâches soigneusement conçues, variant selon les mouvements, les scènes et les robots. Sans recourir à des étiquettes, à une estimation d'état ou à des démonstrations d'experts, nous surpassons de manière cohérente les encodeurs supervisés, atteignant jusqu'à 80 % de taux de réussite absolu, et parfois même une performance équivalente à celle de l'état oracle. Nous constatons également que les images capturées dans le monde réel, par exemple provenant de vidéos YouTube ou de vidéos à point de vue subjectif (egocentric), conduisent à de meilleures représentations visuelles pour diverses tâches de manipulation que les images de ImageNet.