Fei-Fei Li, Yann LeCun et DeepMind jouent tous trois sur le mot "monde" — mais dans trois mondes très différents
L’essor des « modèles du monde » (world models) marque une étape clé dans l’évolution de l’intelligence artificielle, où l’objectif n’est plus seulement de comprendre le langage, mais de modéliser le monde physique, ses lois, ses dynamiques et ses interactions. Ce concept, aujourd’hui au cœur des débats, est interprété de manière radicalement différente par trois acteurs majeurs : Fei-Fei Li avec World Labs, Yann LeCun en préparation d’un nouveau projet, et DeepMind avec son modèle Genie 3. Même si tous utilisent le même terme, leurs visions, leurs approches et leurs objectifs sont profondément distincts. World Labs, porté par Fei-Fei Li, a lancé Marble, une plateforme qui transforme des prompts textuels, des images ou des schémas en mondes 3D interactifs accessibles directement dans le navigateur. Le cœur de ce système repose sur la splatting gaussienne, une technique de rendu 3D qui permet de créer des environnements photoréalistes rapidement, sans passer par des maillages complexes. Marble est essentiellement un outil de production d’actifs 3D pour les jeux, la VR ou la conception, conçu pour des humains. Comme le soulignent les commentaires sur Hacker News, il s’agit d’un « visualiseur de splats 3D » plutôt que d’un modèle cognitif. Le terme « monde » ici fait référence à un espace que l’on peut parcourir, pas à une représentation interne d’un agent. L’ambition de Fei-Fei Li, exprimée dans son manifeste From Words to Worlds, est plus vaste : construire des agents incarnés capables de comprendre la physique, l’action et le contexte. Marble en est le premier pas, mais un pas technologique, non conceptuel. À l’opposé, Yann LeCun conçoit le « monde » comme un modèle interne, une structure de pensée pour une machine. Dans son article A Path Towards Autonomous Machine Intelligence, il défend l’idée d’un système basé sur des architectures comme JEPA (Joint Embedding Predictive Architectures), qui apprennent à prédire des représentations latentes plutôt que des pixels. Le monde n’est pas affiché, il est utilisé pour anticiper des conséquences, simuler des actions, et guider des décisions. Ce n’est pas un outil de rendu, mais un cerveau interne. L’annonce de son départ de Meta pour lancer une startup dédiée aux modèles du monde a suscité des débats sur la direction de l’IA : est-ce un retour à des fondamentaux scientifiques, ou une fuite face à l’« IA de service » de Meta ? Enfin, DeepMind occupe une position intermédiaire avec Genie 3, un modèle qui génère des vidéos interactives en temps réel (720p, 24 fps) à partir d’un prompt. L’environnement persiste, les objets réagissent aux actions, et l’agent peut interagir avec le monde comme dans un jeu vidéo. Contrairement à Marble, Genie 3 ne produit pas un asset statique, mais un simulateur dynamique. Il s’inscrit dans la logique d’entraînement d’agents intelligents dans des mondes virtuels — des entrepôts, des pentes de ski — avant qu’ils n’agissent dans le réel. C’est un monde pour les machines, pas pour les humains. Ainsi, « monde » désigne trois réalités différentes : 1. Un espace visuel pour les humains (Marble), 2. Un simulateur pour les agents (Genie 3), 3. Une représentation latente pour la cognition (LeCun). Ce désaccord sémantique illustre une fragmentation du domaine : l’IA cherche à modéliser le monde, mais selon des paradigmes divergents. Pour évaluer une « world model », il faut se poser trois questions : s’agit-il d’un outil pour humains ou pour agents ? Produit-il des assets statiques, des vidéos en temps réel ou des états latents ? Et après une action (comme renverser un vase), le système retient-il cette information ? Si la réponse est « humains », « statique », « non », on est devant un joli outil de rendu. Si c’est « agents », « temps réel », « oui », on touche peut-être à la véritable intelligence autonome. En somme, les trois projets ne se disputent pas le même territoire. Ils représentent trois facettes d’une même ambition : donner à l’IA une compréhension structurée du monde. Mais leur chemin — technique, épistémologique et commerciale — reste profondément différent.
