DeepMind dévoile Dreamer 4 : un agent IA qui maîtrise Minecraft sans jamais y jouer, en apprenant dans l’imaginaire
DeepMind a présenté Dreamer 4, un nouvel agent d’intelligence artificielle capable d’apprendre à accomplir des tâches complexes dans un modèle du monde à grande échelle, uniquement à partir de vidéos enregistrées. Contrairement aux systèmes traditionnels qui nécessitent des millions d’essais dans des environnements réels ou simulés, Dreamer 4 apprend via une combinaison de modélisation du monde et d’apprentissage par renforcement à l’intérieur d’une simulation interne. Cette approche permet à l’agent de maîtriser des tâches à long terme, comme l’obtention de diamants dans Minecraft, sans jamais interagir directement avec le jeu réel. L’agent a été formé sur un ensemble de données offline comprenant des vidéos de joueurs humains, où il a appris à prédire les conséquences des actions (clavier, souris) et les dynamiques du monde, comme casser des blocs, fabriquer des outils ou interagir avec des tables de craft. Grâce à un modèle transformer optimisé et une nouvelle méthode d’entraînement appelée « shortcut forcing », Dreamer 4 parvient à générer des scénarios imaginaires en temps réel sur une seule carte graphique, avec une précision et une vitesse de génération plus de 25 fois supérieures à celles des modèles vidéo classiques comme Veo ou Sora. Les chercheurs ont pu visualiser les séquences imaginées par l’agent, confirmant qu’il a acquis une compréhension fine des mécaniques du jeu, y compris l’usage de portes, coffres et bateaux. Un des atouts majeurs de Dreamer 4 réside dans sa capacité à tirer parti d’un faible volume de données d’action — quelques centaines d’heures seulement — en exploitant largement les informations visuelles des vidéos. Cela ouvre la voie à une formation d’agents robotiques à partir de vidéos publiques sur internet, sans avoir à recueillir des données coûteuses ou risquées dans le monde réel. Cette avancée est particulièrement prometteuse pour le développement de robots capables d’effectuer des tâches domestiques ou industrielles, en apprenant d’abord dans des simulations fiables. Les chercheurs prévoient d’améliorer le modèle en intégrant une mémoire à long terme pour assurer la cohérence des scénarios sur de longues durées, ainsi qu’une compréhension du langage naturel, permettant une collaboration humain-IA. L’objectif ultime est de former des agents capables de tirer parti de la connaissance du monde contenue dans les vidéos du web, pour s’adapter à des environnements variés et inconnus. Cette recherche marque une étape clé vers des systèmes d’IA capables d’anticiper, de planifier et d’agir de manière autonome, comme le font les humains, en s’appuyant sur une compréhension interne du monde.