HyperAI

En août, Google avait présenté Genie 3, un modèle monde généraliste capable de générer des environnements interactifs variés. Même dans cette phase expérimentale, des testeurs de confiance ont pu créer des mondes fascinants et découvrir de nouvelles utilisations inédites. À présent, la prochaine étape consiste à élargir l’accès via un prototype interactif dédié à la création immersive de mondes. À partir d’aujourd’hui, Google lance progressivement l’accès à Project Genie pour les abonnés Google AI Ultra aux États-Unis (18 ans et plus). Il s’agit d’un prototype expérimental en phase de recherche, accessible via une application web, qui permet aux utilisateurs de concevoir, explorer et remixer leurs propres mondes interactifs. Un modèle monde simule les dynamiques d’un environnement, en prédisant son évolution et l’impact des actions sur celui-ci. Si DeepMind a déjà développé des agents spécialisés pour des jeux comme l’échiquier ou le Go, la construction d’une IA générale (AGI) exige des systèmes capables de naviguer dans la diversité du monde réel. Pour relever ce défi et soutenir sa mission d’AGI, Google a conçu Genie 3. Contrairement aux expériences explorables en 3D statiques, Genie 3 génère en temps réel le chemin à venir au fur et à mesure que l’utilisateur se déplace et interagit avec le monde. Il simule la physique, les interactions et garantit une cohérence remarquable, permettant de modéliser n’importe quel scénario du monde réel — que ce soit pour la robotique, l’animation, la fiction, l’exploration de lieux ou la reconstitution de contextes historiques. Project Genie repose sur Genie 3, combiné à Nano Banana Pro et Gemini, pour offrir une expérience immersive en direct. Il se concentre sur trois fonctionnalités clés : la génération de mondes, l’interaction dynamique et la possibilité de remixer des environnements. Le prototype fonctionne en générant 60 secondes de monde à la fois, offrant une expérience fluide mais limitée dans le temps. Cette approche permet de tester les capacités du modèle tout en maintenant une expérience réactive. Toutefois, Project Genie reste un prototype expérimental en phase de recherche, intégré à Google Labs. Comme Genie 3 est encore un modèle de recherche précoce, certaines fonctionnalités annoncées en août — comme des événements pilotés par des commandes qui modifient le monde en cours d’exploration — ne sont pas encore disponibles. Google précise que des améliorations sont en cours, et que des mises à jour futures apporteront de nouvelles fonctionnalités. L’entreprise insiste sur sa volonté de développer l’IA de manière responsable, dans l’intérêt de l’humanité. En s’appuyant sur les retours des testeurs de confiance issus de divers secteurs, Google souhaite mieux comprendre comment les utilisateurs exploiteront ces modèles mondes dans des domaines variés, tant pour la recherche en IA que pour les médias génératifs. L’accès à Project Genie commence aux États-Unis, puis s’étendra progressivement à d’autres régions. Google espère ainsi découvrir la diversité infinie des mondes créés par les utilisateurs, et un jour rendre ces expériences et cette technologie accessibles à un public plus large.

Liens associés

Liens associés

Liens associés

ByteDance Met En Open Source Lance, Un Modèle 3B Englobant La Compréhension, La Génération Et l'édition ; l'Université Nationale De Singapour Propose l'ensemble De Données ViMU : Couvrant 588 Vidéos Et Des Réponses À Des Questions Non verbales.

ByteDance Met En Open Source Lance, Un Modèle 3B Englobant La Compréhension, La Génération Et l'édition ; l'Université Nationale De Singapour Propose l'ensemble De Données ViMU : Couvrant 588 Vidéos Et Des Réponses À Des Questions Non verbales.

Command Palette

Google Project Genie : créez des mondes interactifs à partir d'une photo ou d'un texte

Liens associés

Command Palette

Google Project Genie : créez des mondes interactifs à partir d'une photo ou d'un texte

Liens associés

Command Palette

Google Project Genie : créez des mondes interactifs à partir d'une photo ou d'un texte

Liens associés

ByteDance Met En Open Source Lance, Un Modèle 3B Englobant La Compréhension, La Génération Et l'édition ; l'Université Nationale De Singapour Propose l'ensemble De Données ViMU : Couvrant 588 Vidéos Et Des Réponses À Des Questions Non verbales.

ByteDance Met En Open Source Lance, Un Modèle 3B Englobant La Compréhension, La Génération Et l'édition ; l'Université Nationale De Singapour Propose l'ensemble De Données ViMU : Couvrant 588 Vidéos Et Des Réponses À Des Questions Non verbales.