HyperAIHyperAI

Command Palette

Search for a command to run...

MIT dévoile une méthode révolutionnaire pour entraîner les robots : créer des mondes virtuels infinis et réalistes avec l’IA

Une équipe du MIT, en collaboration avec le Toyota Research Institute, a présenté une nouvelle méthode révolutionnaire baptisée « génération contrôlée de scènes », conçue pour doter les robots d’un environnement virtuel infiniment diversifié et réaliste, essentiel à leur apprentissage. Alors que les modèles linguistiques comme ChatGPT ou Claude ont connu une croissance fulgurante grâce à leur capacité à traiter une vaste gamme de tâches, tirant parti de milliards de données textuelles, les robots ont besoin d’un autre type de formation : des interactions concrètes dans des environnements réels ou simulés. Pour les entraîner à saisir, empiler ou ranger des objets, les ingénieurs ont traditionnellement recours à des vidéos de démonstrations réelles — une méthode longue, coûteuse et difficile à reproduire avec précision. Pour contourner ces limites, plusieurs approches ont été testées : la génération de données simulées par IA, souvent déconnectée des lois physiques réelles, ou la création manuelle de scènes numériques, fastidieuse et peu évolutive. La solution proposée par les chercheurs du CSAIL du MIT repose sur une innovation combinant intelligence artificielle générative et stratégies de recherche avancées. Leur outil, entraîné sur un ensemble de données comprenant plus de 44 millions de pièces 3D d’intérieurs (cuisines, salons, salles à manger), permet de générer des scènes virtuelles complexes, physiquement cohérentes et visuellement réalistes, en temps réel. Le cœur de la méthode réside dans l’utilisation d’un modèle de diffusion, un système capable de transformer du bruit aléatoire en images ou scènes 3D cohérentes. Mais ici, ce n’est pas une simple génération aléatoire : l’équipe utilise une stratégie de « peinture intérieure » (in-painting) pour remplir progressivement des espaces vides avec des objets, tout en garantissant que les interactions physiques soient crédibles — par exemple, qu’une fourchette ne traverse pas un bol. Ce contrôle s’appuie sur une approche novatrice : le recherche arborescente de Monte Carlo (MCTS), déjà utilisée par AlphaGo pour anticiper les coups gagnants. Ici, elle permet au modèle de générer une série de scénarios alternatifs, d’évaluer leur qualité (par exemple, leur réalisme physique ou la densité d’objets utilitaires) et de sélectionner la meilleure trajectoire de construction. Les résultats sont impressionnants. Dans une scène de restaurant simple, le système a réussi à intégrer jusqu’à 34 objets — dont des paniers à pâtisseries empilés — contre une moyenne de 17 dans les scènes d’entraînement. Cette capacité à dépasser les limites du jeu de données d’origine est cruciale : elle permet de générer des scénarios « jamais vus » mais pertinents pour l’entraînement robotique. En complément, la méthode exploite l’apprentissage par renforcement, où le modèle apprend à optimiser ses créations selon des objectifs définis par des récompenses numériques. Par exemple, un scénario est valorisé s’il contient plus d’aliments comestibles ou si les objets sont disposés de manière réaliste. Grâce à cette approche, l’outil peut répondre à des instructions précises comme « une cuisine avec un bol et quatre pommes sur la table », avec une précision de 98 % pour les scènes de rangement alimentaire, et 86 % pour des tables de petit-déjeuner désordonnées — des performances supérieures de plus de 10 % à celles des méthodes concurrentes comme MiDiffusion ou DiffuScene. L’outil peut aussi « compléter » des scènes existantes : en gardant une partie du décor, il propose de nouvelles dispositions d’objets (par exemple, répartir des pommes sur plusieurs assiettes ou ranger des jeux de société sur une étagère). Cette flexibilité ouvre la voie à une génération massive de scénarios variés, idéaux pour entraîner des robots à des tâches complexes. Selon Nicholas Pfaff, doctorant au MIT et premier auteur de l’étude, « notre méthode permet de sortir des limites du jeu de données d’entraînement. Grâce à la direction par MCTS, nous pouvons échantillonner des scènes plus riches, plus réalistes et mieux alignées sur les besoins réels des robots. » Les chercheurs prévoient d’ailleurs d’élargir la méthode à la génération automatique d’objets nouveaux, avec des parties mobiles (tiroirs, bocaux ouverts), et d’intégrer des bases de données issues d’images du web via des projets comme Scalable Real2Sim. L’objectif final : créer une communauté collaborative produisant un vaste ensemble de données virtuelles, accélérant ainsi le déploiement de robots intelligents et adaptables dans le monde réel. Comme le souligne Jeremy Binagia, scientifique chez Amazon Robotics (non impliqué dans l’étude), « cette approche représente une avancée majeure : elle combine génération massive, contrôle physique rigoureux et adaptation ciblée, tout en évitant les pièges des méthodes 2D ou des modèles pré-entraînés trop rigides. » Rick Cory, expert robotique chez Toyota, ajoute que ce cadre ouvre la voie à des scénarios « inédits » et critiques pour la robotique, et pourrait devenir une pierre angulaire du progrès vers des robots autonomes capables de s’adapter à tout environnement.

Liens associés

MIT dévoile une méthode révolutionnaire pour entraîner les robots : créer des mondes virtuels infinis et réalistes avec l’IA | Articles tendance | HyperAI