HyperAI

Le 5 août, DeepMind de Google a dévoilé la troisième génération de son modèle mondial, Genie 3, une avancée majeure dans la création de mondes virtuels générés par intelligence artificielle. Contrairement aux jeux vidéo traditionnels, dont les environnements sont préconçus par des développeurs, Genie 3 peut transformer une simple instruction textuelle — comme « une ville cyberpunk sous la pluie » ou « une forêt féérique baignée de soleil » — en un monde 3D interactif en temps réel, accessible à la fois aux utilisateurs humains et aux agents intelligents. Cette nouvelle version marque une rupture significative par rapport aux versions précédentes. Alors que Genie 2, lancé en décembre 2024, permettait seulement une interaction de 10 à 20 secondes à une résolution basse (360p), Genie 3 fonctionne à 720p et 24 images par seconde, permettant des sessions d’interaction prolongées de plusieurs minutes. Mais l’innovation la plus notable réside dans sa capacité à conserver une mémoire contextuelle. Dans les démonstrations, si un utilisateur dessine sur un mur d’une pièce, puis s’éloigne pour explorer ailleurs, le dessin reste visible à son retour. Cette cohérence temporelle, qui évoque une forme de conscience spatiale et persistante du monde, est une propriété émergente — non codée directement — qui donne aux environnements une richesse et une crédibilité sans précédent. Un autre progrès clé est la fonctionnalité « événements mondiaux promptables » : les utilisateurs peuvent modifier dynamiquement le monde en envoyant de nouvelles instructions. Par exemple, dans une scène de ski paisible, une commande comme « ajouter un groupe de cerfs » déclenche immédiatement la génération de ces animaux. On peut aussi changer le temps, ajouter des objets ou même invoquer des créatures absurdes — comme un gorille en veston de velours. Cette flexibilité transforme le monde généré en un véritable « sandbox » interactif, où l’imagination est le seul limitant. Mais au-delà du divertissement, Genie 3 s’inscrit dans une vision plus ambitieuse : accélérer le développement de l’intelligence artificielle générale (AGI). DeepMind considère que les modèles mondiaux sont essentiels pour entraîner des agents intelligents capables de comprendre et d’interagir avec des environnements complexes. Pour cela, ils ont utilisé Genie 3 pour entraîner SIMA, un agent généralisable capable d’exécuter des tâches selon des instructions naturelles dans divers mondes virtuels. Grâce à cette approche, SIMA apprend à naviguer, interagir avec des objets et faire face à des situations imprévues — des compétences cruciales pour des robots autonomes en logistique, industrie ou services. Malgré ses progrès, Genie 3 reste limité. Les actions que peuvent exécuter les agents sont encore restreintes, et de nombreuses interventions complexes doivent être réalisées via des commandes textuelles, pas par des gestes physiques dans le monde. L’interaction entre plusieurs agents intelligents dans un même environnement reste difficile à simuler. De plus, le modèle ne reproduit pas fidèlement des lieux réels avec une précision géographique, et sa capacité à générer du texte lisible reste faible, sauf si l’instruction le précise explicitement. Pour l’instant, Genie 3 n’est pas disponible au grand public. Google propose seulement une version limitée aux chercheurs et créateurs sélectionnés, dans une optique de recherche responsable, afin d’étudier les risques éthiques, les biais et les limites du système avant une diffusion plus large. Si l’on est encore loin d’un « holodeck » comme dans Star Trek, Genie 3 représente une étape fondamentale : le premier modèle mondial capable de produire en temps réel des environnements 3D riches, cohérents et interactifs. Il ouvre la voie à une nouvelle ère de simulation, d’apprentissage par l’IA, et de création numérique sans limites.

Google dévoile Genie 3 : un monde virtuel génératif, interactif en temps réel, créé en une phrase

Related Links