HyperAIHyperAI

Command Palette

Search for a command to run...

NVIDIA dévoile GR00T N1.6 : un robot humanoïde généraliste grâce à une chaîne sim-to-real intelligente

NVIDIA présente Isaac GR00T N1.6, une avancée majeure dans le développement de robots humanoïdes généralistes capables de s’adapter à des environnements dynamiques grâce à une architecture intégrée simulant l’interaction entre perception, planification et contrôle corporel. Ce système repose sur un flux sim-to-real (simulation vers monde réel) qui combine apprentissage par renforcement (RL) à corps entier, navigation entraînée sur données synthétiques et localisation visuelle accélérée par CUDA. Ce pipeline permet aux robots d’acquérir des compétences complexes en simulation avant de les déployer directement sur du matériel physique, avec une robustesse accrue et une minimisation des ajustements post-déploiement. GR00T N1.6 est un modèle multimodal vision-langage-action (VLA) qui intègre des observations visuelles en vue subjective, l’état du robot et des instructions en langage naturel pour générer des politiques d’action end-to-end. Il s’appuie sur des modèles mondiaux comme NVIDIA Cosmos Reason pour décomposer des tâches complexes en séquences d’actions fondées sur une compréhension contextuelle de l’environnement. Les améliorations de cette version incluent : un modèle vision-langage (Cosmos-Reason-2B) supportant des résolutions natives, offrant une perception plus claire et une meilleure décomposition de tâches ; un transformateur à diffusion 2 fois plus grand (32 couches) pour des mouvements fluides et adaptatifs ; et une meilleure généralisation à travers des milliers d’heures de données de téléopération variées, couvrant des humanoïdes, manipulateurs mobiles et bras bimanuels. Le modèle est pré-entraîné pour des évaluations zéro-shot, avec un finetuning recommandé pour des applications spécifiques. Le contrôle à bas niveau est assuré par un contrôleur à corps entier entraîné via RL dans Isaac Lab, produisant des mouvements humains, stables dynamiquement, couvrant la locomotion, la manipulation et les comportements à contact multiple. Ce contrôleur est transféré zéro-shot vers des robots physiques, assurant une robustesse transversale. L’architecture de GR00T N1.6 intègre ainsi une hiérarchie : le haut niveau gère la planification, le niveau intermédiaire compose des comportements, et le bas niveau assure le contrôle stable. La navigation point-to-point est améliorée par un entraînement sur des données synthétiques générées par COMPASS, un pipeline d’apprentissage par imitation, RL résiduel et distillation de politique. COMPASS produit des trajectoires diversifiées dans des scènes variées, permettant à GR00T de devenir une politique de navigation efficace sans besoin de données réelles. Cette politique émet des commandes de vitesse au contrôleur à corps entier, qui gère alors l’équilibre et les contacts, tandis que la navigation se concentre sur l’évitement d’obstacles et les transitions entre navigation et manipulation. Pour localiser le robot dans des environnements réels, une pile de localisation visuelle repose sur CUDA et les bibliothèques NVIDIA CUDA-X. Elle utilise des cartes préconstruites (carte de landmarks cuVSLAM, carte bag-of-words cuVGL, carte d’occupation) générées offline via Isaac ROS. À l’exécution, cuVGL identifie des paires d’images similaires, puis cuVSLAM affine la position initiale en correspondant des caractéristiques locales aux cartes, garantissant une localisation précise et à faible dérive. Ce système permet de lier des commandes et des points d’objectif à des coordonnées réelles, essentiel pour des tâches complexes. En résumé, GR00T N1.6 incarne une avancée majeure vers des robots généralistes capables d’agir de manière autonome, robuste et contextuelle. Des experts du secteur soulignent que ce pipeline sim-to-real, combinant IA, simulation de haute fidélité et accélération matérielle, réduit considérablement le coût et le temps de développement. NVIDIA Robotics, en mettant à disposition des outils open-source, des documents et des formations gratuites, vise à démocratiser l’accès à ces technologies, positionnant GR00T N1.6 comme un pilier de l’ère des systèmes d’intelligence physique.

Liens associés