Command Palette
Search for a command to run...
DexFlyWheel : un cadre évolutif et auto-améliorant pour la génération de données en manipulation habile

Résumé
La manipulation habile est essentielle au progrès des capacités robotiques dans des applications du monde réel, mais les jeux de données diversifiés et de haute qualité restent rares. Les méthodes existantes de collecte de données reposent soit sur la téléopération humaine, soit nécessitent une ingénierie humaine importante, ou encore produisent des données aux diversités limitées, ce qui entrave leur évolutivité et leur généralisation. Dans cet article, nous introduisons DexFlyWheel, un cadre évolutif de génération de données qui exploite un cycle d'amélioration autonome afin d'enrichir continuellement la diversité des données. À partir d'une initialisation efficace par des démonstrations initiales (« seed demonstrations »), DexFlyWheel élargit progressivement le jeu de données à travers des cycles itératifs. Chaque cycle suit une chaîne en boucle fermée intégrant l’apprentissage par imitation (IL), l’apprentissage par renforcement résiduel (RL), la collecte de trajectoires par rollout, et l’augmentation des données. Plus précisément, l’IL extrait des comportements analogues à ceux des humains à partir des démonstrations, tandis que le RL résiduel améliore la généralisation de la politique. La politique apprise est ensuite utilisée pour générer des trajectoires en simulation, qui sont enrichies à travers divers environnements et configurations spatiales avant d’être réintroduites dans le cycle suivant. Au fil des itérations successives, un effet de « flywheel » autodéveloppant émerge, produisant des jeux de données couvrant une large variété de scénarios, permettant ainsi d’améliorer de manière significative les performances des politiques. Les résultats expérimentaux montrent que DexFlyWheel génère plus de 2 000 démonstrations diversifiées sur quatre tâches exigeantes. Les politiques entraînées sur notre jeu de données atteignent un taux de réussite moyen de 81,9 % sur des ensembles de test de difficulté élevée, et se transmettent avec succès vers le monde réel via un jumeau numérique, obtenant un taux de réussite de 78,3 % sur des tâches de levage à deux bras.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.