HyperAIHyperAI

Command Palette

Search for a command to run...

Yann LeCun : les grands modèles sont une impasse, le futur de l’IA réside dans les modèles mondiaux

À l’occasion de la conférence d’ouverture du MIT Generative AI Impact Consortium, Yann LeCun, scientifique en chef de l’IA chez Meta et professeur à l’université de New York, a de nouveau fait sensation en réaffirmant son scepticisme envers les grands modèles linguistiques (LLM) et les robots humanoïdes. Pour lui, ces technologies sont en train de s’engager dans une impasse, tandis que la véritable voie vers une intelligence artificielle de niveau humain réside dans le développement de modèles mondiaux fondés sur l’apprentissage auto-supervisé. LeCun, lauréat du prix Turing en 2018, revient ainsi sur une position qu’il défend depuis des années : les LLM, malgré leur puissance actuelle, ne pourront jamais atteindre une véritable intelligence. « Ces systèmes ne sont que des mécanismes de répétition de connaissances humaines », affirme-t-il, soulignant que leur apprentissage repose sur une accumulation massive de données textuelles, sans véritable compréhension du monde. Il compare cette approche à celle des systèmes experts des années 1980, dont les limites étaient déjà évidentes : la connaissance humaine est trop complexe et trop contextuelle pour être réduite à des règles ou des corpus. Ce que LeCun appelle la « théorie du gâteau » – présentée en 2016 à NeurIPS – illustre sa vision. Selon lui, l’IA devrait s’appuyer principalement sur l’apprentissage auto-supervisé (le corps du gâteau), complété par l’apprentissage supervisé (le sucre) et l’apprentissage par renforcement (la cerise). Il critique l’obsession actuelle de l’apprentissage par renforcement, jugé inefficace, car basé sur des essais-erreurs coûteux. L’idée maîtresse ? Faire apprendre à l’IA à modéliser le monde naturel à partir de données brutes, sans étiquetage, en capturant les dépendances intrinsèques des signaux sensoriels. Un point clé de son argumentation repose sur une comparaison frappante : un enfant de quatre ans, en quatre ans de vie, reçoit une quantité d’informations visuelles équivalente à celle utilisée pour entraîner les plus grands modèles comme Llama 3. Ce dernier a été formé sur environ 30 billions de tokens – soit environ 10^14 octets. Or, le cerveau d’un enfant, via ses 2 millions de fibres optiques, reçoit environ la même quantité d’information. « Si nous ne pouvons pas reproduire cette capacité à partir de données visuelles et sensorielles, nous ne parviendrons jamais à une vraie intelligence », affirme LeCun. C’est là que naît l’idée du JEPA (Joint Embedding Predictive Architecture), un cadre alternatif au modèle génératif classique. Contrairement aux LLM qui tentent de reconstruire chaque pixel ou mot manquant, le JEPA apprend à prédire des représentations abstraites du monde – des « états du monde » – à partir de données partielles. Le système ne cherche pas à reproduire les détails imprévisibles (comme les traits d’un visage ou les textures du sol), mais à capturer ce qui est prévisible. Cette approche, testée dans des expériences avec des vidéos, a montré des performances supérieures à celles des modèles génératifs, notamment dans des tâches de vision. Des projets comme Dino (un encodeur visuel auto-supervisé) et V-JEPA (son équivalent vidéo) ont permis de démontrer que ces modèles peuvent acquérir une forme de « bon sens » : lorsqu’un événement impossible est observé (un objet disparaît soudainement), l’erreur de prédiction augmente fortement. C’est un premier signe d’une compréhension du monde physique. Dans le domaine des robots, cette approche ouvre la voie à des systèmes capables de planification sans apprentissage par renforcement. Grâce à un modèle du monde, un robot peut imaginer une séquence d’actions, prédire leurs conséquences, et optimiser cette séquence pour atteindre un objectif – par exemple, préparer un café. LeCun souligne que ces systèmes peuvent être entraînés de manière auto-supervisée, sans aucune tâche spécifique, et réussir des tâches inédites de manière zéro-échantillon. Sur la question de la sécurité, LeCun adopte une vision optimiste. Il propose des systèmes « pilotés par des objectifs », où les contraintes (« barrières ») sont intégrées directement dans la fonction objectif. Ainsi, un robot ne pourrait pas blesser une personne même s’il vise à atteindre un but, car le système est conçu pour ne jamais violer ces règles. Il compare cela à la régulation humaine par le droit, affirmant que c’est un défi maîtrisable, pas une fatalité. Enfin, adressant les jeunes chercheurs, LeCun les exhorte à s’orienter vers des disciplines fondamentales comme la mécanique quantique, plutôt que vers des compétences techniques à court terme comme le développement d’applications. « L’avenir appartient à ceux qui comprennent les concepts profonds », dit-il. Les intelligences artificielles futures seront des assistants capables de gérer les détails techniques, permettant aux humains de travailler à un niveau conceptuel supérieur. Dans son regard, les prochaines années ne seront pas celles des LLM, mais celles des robots dotés de modèles mondiaux – une révolution qui, selon lui, pourrait être en marche dès les trois à cinq prochaines années.

Liens associés