HyperAI

Depuis quelques années, les modèles d’intelligence artificielle générative comme ChatGPT ou Claude ont révolutionné la manière dont les humains interagissent avec la technologie, grâce à leur capacité à traiter une vaste gamme de tâches grâce à l’analyse de milliards de données textuelles. Toutefois, ces systèmes ne suffisent pas à entraîner des robots à interagir efficacement avec le monde réel. Pour apprendre à manipuler, empiler ou déplacer des objets dans des environnements variés, les robots nécessitent des données d’entraînement sous forme de démonstrations concrètes — des vidéos d’instruction virtuelles ou réelles. Or, recueillir ces données sur des robots physiques est long et peu reproductible. Les simulateurs traditionnels, souvent basés sur des modèles 3D simplifiés ou créés à la main, manquent de réalisme physique. Des chercheurs du laboratoire MIT CSAIL et de l’Institut de recherche Toyota ont développé une solution prometteuse : une méthode baptisée « génération de scènes pilotable » (steerable scene generation). Ce système utilise un modèle diffusion — une IA capable de générer des images à partir de bruit aléatoire — pour créer des scènes 3D réalistes de lieux courants comme des cuisines, salons ou restaurants. En s’appuyant sur un ensemble de 44 millions de pièces 3D réalistes (tables, assiettes, ustensiles, etc.), le modèle place et réarrange automatiquement ces objets dans des environnements cohérents, en garantissant que les lois physiques sont respectées — par exemple, qu’un couteau ne traverse pas une assiette (un problème courant appelé « clipping »). Le cœur de cette innovation réside dans l’application de l’algorithme de recherche arborescente de Monte Carlo (MCTS), déjà utilisé avec succès par AlphaGo pour optimiser ses décisions dans le jeu de Go. Ici, MCTS permet à l’IA de générer progressivement des scènes en évaluant plusieurs variantes possibles, en choisissant celles qui maximisent un objectif prédéfini : réalisme physique, densité d’objets, présence d’aliments comestibles, etc. Dans une expérience, le modèle a réussi à surcharger une table de restaurant avec jusqu’à 34 objets — presque deux fois plus que la moyenne des scènes d’entraînement (17 objets). Ce niveau de complexité dépasse les capacités des modèles traditionnels. Le système peut également être guidé par apprentissage par renforcement : après une phase d’entraînement initial, l’IA apprend à produire des scènes qui maximisent un « score » défini par l’utilisateur. Il peut aussi répondre à des commandes textuelles précises, comme « une cuisine avec quatre pommes et un bol sur la table », avec une précision de 98 % pour les étagères de cuisine et 86 % pour les tables de petit-déjeuner — une amélioration significative par rapport à des méthodes comme MiDiffusion ou DiffuScene. Grâce à cette flexibilité, les chercheurs peuvent demander des variantes d’un même scénario (par exemple, réarranger des objets sur une table sans changer le reste). L’outil excelle à « remplir les blancs » tout en préservant la cohérence du contexte. Selon Nicholas Pfaff, doctorant au MIT et co-auteur principal, l’essentiel est que les scènes générées ne doivent pas être identiques à celles du jeu d’entraînement : grâce aux méthodes de pilotage, on peut explorer des scénarios plus diversifiés, réalistes et adaptés aux tâches robotiques. Les simulations ont permis de tester des robots virtuels dans des scénarios complexes — placer des couverts, déplacer du pain sur des assiettes — avec un mouvement fluide et crédible. Bien que ce soit encore un prototype, cette approche ouvre la voie à une génération à grande échelle de données d’entraînement réalistes. À l’avenir, les chercheurs souhaitent intégrer des objets articulés (tiroirs, bocaux) et générer de nouveaux objets entièrement nouveaux, non présents dans les bibliothèques existantes. Selon Rick Cory, chercheur au Toyota Research Institute non impliqué dans l’étude, cette méthode constitue une avancée majeure vers l’entraînement efficace de robots pour des applications réelles. Le projet a été présenté à la conférence CoRL en septembre, et soutenu par Amazon et le Toyota Research Institute.

Liens associés

Liens associés

Liens associés

Une Équipe De Recherche Européenne a Proposé SeaCast, Un Modèle Régional De Prévision Océanique À Haute Résolution Capable De Fournir Des Prévisions À 15 Jours En Seulement 20 secondes.

Une Équipe De Recherche Européenne a Proposé SeaCast, Un Modèle Régional De Prévision Océanique À Haute Résolution Capable De Fournir Des Prévisions À 15 Jours En Seulement 20 secondes.

Command Palette

Robotics gets a boost from AI: new system generates realistic, diverse training worlds at scale

Liens associés

Command Palette

Robotics gets a boost from AI: new system generates realistic, diverse training worlds at scale

Liens associés

Command Palette

Robotics gets a boost from AI: new system generates realistic, diverse training worlds at scale

Liens associés

Une Équipe De Recherche Européenne a Proposé SeaCast, Un Modèle Régional De Prévision Océanique À Haute Résolution Capable De Fournir Des Prévisions À 15 Jours En Seulement 20 secondes.

Une Équipe De Recherche Européenne a Proposé SeaCast, Un Modèle Régional De Prévision Océanique À Haute Résolution Capable De Fournir Des Prévisions À 15 Jours En Seulement 20 secondes.