Command Palette
Search for a command to run...
VIRAL : Visual Sim-to-Real à grande échelle pour la locomotion et la manipulation humaines

Résumé
Un obstacle majeur à l'implémentation des robots humanoïdes dans des environnements réels réside dans le manque de compétences autonomes en locomotion et manipulation conjointes. Nous introduisons VIRAL, un cadre sim-to-real basé sur la vision, qui apprend entièrement en simulation la locomotion et la manipulation humanoïde, puis la déploie de manière zéro-shot sur du matériel réel. VIRAL repose sur une architecture enseignant-étudiant : un enseignant en apprentissage par renforcement (RL) à accès privilégié, opérant sur l'état complet du système, apprend la locomotion et la manipulation à horizon long en utilisant un espace d’actions différentielles et une initialisation par état de référence. Une politique d’enseignant visuelle est ensuite extraite de cet enseignant via une simulation à grande échelle utilisant un rendu en tuiles, entraînée à l’aide d’un mélange d’algorithmes DAgger en ligne et de clonage de comportement. Nous constatons que l’échelle des ressources informatiques est cruciale : échelonner la simulation à des dizaines de GPU (jusqu’à 64) rend l’entraînement de l’enseignant et de l’étudiant fiable, tandis que les régimes à faible puissance de calcul échouent fréquemment. Pour réduire l’écart entre simulation et monde réel, VIRAL combine une randomisation à grande échelle du domaine visuel — portant sur l’éclairage, les matériaux, les paramètres de caméra, la qualité d’image et les retards de capteurs — avec une alignement réel-simulation des mains habiles et des caméras. Déployée sur un humanoïde Unitree G1, la politique basée sur les images RGB parvient à réaliser une locomotion et une manipulation continues sur jusqu’à 54 cycles, en généralisant à diverses variations spatiales et d’apparence sans aucune adaptation en environnement réel, et s’approchant des performances d’une téléopération experte. Des études ablatives poussées permettent d’analyser les choix architecturaux essentiels permettant de rendre la locomotion et la manipulation humanoïde basées sur les images RGB fonctionnelles dans la pratique.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.