Les géants de l’IA investissent massivement dans les modèles mondiaux face à la stagnation des LLM
Les grandes entreprises spécialisées dans l’intelligence artificielle investissent massivement dans le développement de modèles mondiaux, alors que les progrès des grands modèles linguistiques (LLM) ralentissent. Ces modèles mondiaux visent à permettre aux systèmes d’intelligence artificielle de comprendre et d’interagir avec le monde physique en apprenant à partir de vidéos, de données provenant de robots ou d’expériences sensorielles. Contrairement aux LLM, qui se concentrent principalement sur la compréhension et la génération de langage, les modèles mondiaux cherchent à construire une représentation intégrée de l’environnement — incluant la physique, les objets, les actions et leurs conséquences — afin de prévoir, planifier et agir de manière autonome. Cette transition stratégique s’inscrit dans une réponse aux limites croissantes des LLM : malgré leurs performances impressionnantes dans des tâches linguistiques, ils restent souvent incapables de raisonner sur le monde réel, de comprendre les lois physiques ou de manipuler des objets sans supervision directe. Les modèles mondiaux, eux, sont conçus pour simuler des scénarios du monde réel, anticiper les résultats d’actions, et même apprendre par l’expérience, comme un être humain le ferait en observant et en interagissant avec son environnement. Des entreprises comme Google, Meta, OpenAI et Tesla s’engagent activement dans cette voie, en développant des architectures capables de traiter des flux vidéo continus, d’extraire des structures spatiales et temporelles, et de générer des prédictions sur l’évolution des scènes. Par exemple, des projets comme Google’s Dreamer ou Meta’s World Models explorent comment les agents peuvent apprendre à naviguer dans des environnements virtuels complexes en se basant uniquement sur des observations visuelles. Ces recherches sont également soutenues par une nouvelle génération de données spécialisées, souvent générées par des robots ou des simulations haute fidélité, qui permettent d’entraîner les modèles sur des interactions physiques réalistes. L’objectif final est de créer des systèmes capables de réaliser des tâches concrètes — comme ranger une pièce, conduire une voiture ou aider à la maison — sans avoir besoin d’instructions détaillées à chaque étape. Bien que ces modèles soient encore à un stade expérimental, leur développement marque une étape clé vers une intelligence artificielle plus autonome, robuste et appliquée au monde réel. Alors que les LLM atteignent des limites dans leur capacité à comprendre la réalité physique, les modèles mondiaux pourraient offrir la clé pour passer d’une intelligence conversationnelle à une intelligence actionnelle.
