Pionnières de l'IA, Fei-Fei Li et Yann LeCun travaillent sur des modèles "monde" pour doter les IA d'une intelligence spatiale avancée
Les Chercheurs en IA Contestent les Modèles Linguistiques : Place aux Modèles Mondiaux Les modèles linguistiques d’IA (Intelligence Artificielle) actuels sont critiqués par une poignée de chercheurs de premier plan, qui s’efforcent de créer des « modèles mondiaux ». Ces modèles se basent non seulement sur la langue, mais aussi sur des données spatiales et temporelles pour prédire des événements et évoluer dans des environnements tridimensionnels. Parmi ces pionniers, on trouve Fei-Fei Li, célèbre professeur de l'Université de Stanford et inventrice d'ImageNet, ainsi que Yann LeCun, le directeur scientifique en IA de Meta. Fei-Fei Li : Vers des Modèles Mondiaux Fei-Fei Li, lors d’une récente émission du podcast d'Andreessen Horowitz, a souligné que la langue est une construction sociale et que l'intelligence humaine dépasse largement ce cadre. « Les humains ne se contentent pas de survivre, vivre et travailler ; ils construisent des civilisations qui vont au-delà du langage, » a-t-elle affirmé. Li acofondé World Labs en 2024 avec un financement initial de 230 millions de dollars, soutenu par des firmes de capital-risque comme Andreessen Horowitz, New Enterprise Associates et Radical Ventures. L’objectif de World Labs est de faire passer les modèles d'IA du monde des images 2D à celui des univers 3D, virtuels et réels, dotés d'une intelligence spatiale aussi riche que celle des humains. L’intelligence spatiale, selon Li, englobe « la capacité de comprendre, raisonner, interagir et générer des mondes 3D ». Elle voit des applications prometteuses pour ces modèles mondiaux dans des domaines créatifs, la robotique, et même les applications militaires, comme l'aide à la perception du champ de bataille et l'anticipation des mouvements de l'ennemi. Défis et Solutions La principale difficulté dans la construction de ces modèles est l'absence de données suffisamment robustes. Contrairement au langage, qui a été affiné et documenté sur plusieurs siècles, l’intelligence spatiale reste moins développée. « Si je vous demande de fermer les yeux et de dessiner ou construire un modèle 3D de l'environnement autour de vous, ce n'est pas si simple, » a souligné Li sur le podcast No Priors. Pour y remédier, il faut recourir à des méthodes de collecte et de traitement des données plus sophistiquées et intensives. Yann LeCun : Simulations et Abstractions Chez Meta, Yann LeCun dirige une petite équipe chargée d’un projet similaire. Cette équipe utilise des données vidéo pour entraîner leurs modèles et exécute des simulations qui abstraient ces vidéos à différents niveaux. LeCun a expliqué lors du Sommet AI Action à Paris plus tôt cette année : « L’idée de base est que vous ne prédictivez pas au niveau des pixels. Vous formez un système pour générer une représentation abstraite de la vidéo, de manière à pouvoir faire des prédictions dans cette représentation abstraite, en espérant que cette représentation éliminera tous les détails imprévisibles. » Cette approche simplifie les blocs de construction nécessaires pour cartographier les trajectoires des changements futurs dans le monde. LeCun, comme Li, croit que ces modèles sont essentiels pour concevoir une IA véritablement intelligente. « Nous avons besoin de systèmes d'IA qui peuvent apprendre de nouvelles tâches très rapidement, » a-t-il déclaré au National University of Singapore. Ils doivent comprendre le monde physique, posséder un certain niveau de bon sens, être capables de raisonnement et de planification, et avoir une mémoire persistante. Tous ces éléments constituent ce que nous attendons d'entités intelligentes. » Contexte Historique et Importance des Modèles Mentaux En 1971, Jay Wright Forrester, professeur au MIT, a expliqué dans son papier « Comportement Contre-Intuitif des Systèmes Sociaux » l'importance des modèles mentaux pour la prise de décision humaine : « Nous utilisons constamment des modèles. Chaque personne, dans sa vie privée ou professionnelle, utilise intuitivement des modèles pour prendre des décisions. Nos têtes ne contiennent pas de familles, d'entreprises, de villes, de gouvernements ou de pays réels ; elles utilisent des concepts et des relations sélectionnés pour représenter les systèmes réels. » Il a ajouté que toutes les décisions et actions sont basées sur des modèles, qu'ils soient explicites ou implicites. Si l’IA doit égaler ou surpasser l’intelligence humaine, elle doit pouvoir construire et utiliser des modèles mondiaux. Ce processus implique de former les systèmes à la fois sur des données langagières et spatiales, leur permettant de comprendre le monde de manière plus holistique et intuitive. Evaluations de l’Industrie et Profil de l’Entreprise L’orientation vers les modèles mondiaux est perçue par de nombreux professionnels de l’IA comme une avancée majeure. En intégrant la spatialité et la temporalité, ces modèles pourraient offrir une plus grande flexibilité et une meilleure performance dans diverses applications. World Labs, avec son importante somme de financement et ses objectifs ambitieux, représente un acteur crucial dans ce domaine. L'entreprise se positionne comme un leader en innovation technologique, mettant l'accent sur l’intelligence spatiale pour rendre l’IA plus proche de l'humain. Des experts comme LeCun et Li sont convaincus que l'avenir de l'IA passe par l’adoption de ces modèles mondiaux. Leur travail pourrait révolutionner la façon dont les systèmes d'IA comprennent et interagissent avec le monde, ouvrant de nouvelles possibilités dans des secteurs variés.