L’IA qui apprend en regardant un bébé lâcher sa cuillère
Un bébé dans sa chaise haute, qui laisse tomber sa cuillère encore et encore, n’agit pas par caprice : il mène une expérience scientifique silencieuse. Chaque chute confirme une loi fondamentale de l’univers — la gravité. Ce petit être, en observant le monde par ses yeux, construit une modélisation intérieure de la réalité, sans mots, sans théorie, seulement par l’expérience. Ce processus, si simple, révèle une vérité profonde sur l’apprentissage : comprendre le monde commence par la perception, pas par la langue. Et c’est précisément cette idée que Yann LeCun, chef scientifique de l’IA chez Meta et lauréat du prix Turing, veut appliquer à l’intelligence artificielle d’aujourd’hui. Les grands modèles linguistiques comme ChatGPT, bien qu’impressionnants, sont des experts en imitation. Ils fonctionnent selon un principe appelé « autoregression » : ils prédisent le mot suivant en se basant sur les mots précédents. Mais cette méthode est fondamentalement fragile. Une erreur minuscule à chaque prédiction s’accumule rapidement, entraînant des « hallucinations » — des réponses plausibles mais fausses, comme des décisions juridiques citant des tribunaux fictifs. LeCun est catégorique : « Personne de raisonnable n’utilisera les modèles autoregressifs dans quelques années. » Le problème n’est pas la quantité de données, mais la nature même de l’apprentissage : se fier à des textes, c’est apprendre une description du monde, pas le vivre. En comparaison, un enfant de quatre ans absorbe chaque année entre 10¹⁴ et 10¹⁵ octets de données visuelles — des mouvements, des interactions, des changements dans l’espace. C’est une immersion sensorielle directe dans la réalité. Les modèles actuels, eux, ne voient que des mots, des symboles, des représentations abstraites. Leur compréhension manque de fondement physique. Mais tout change. Des laboratoires comme ceux de Meta et Apple montrent la voie. En juin, Meta a lancé V-JEPA 2, un modèle « monde » entraîné sur des vidéos pour prédire les dynamiques physiques du réel. Il ne décrit pas une scène, il comprend comment les objets bougent, s’effondrent, interagissent. Apple, quant à lui, a développé SlowFast-LLaVA-1.5, capable de distinguer les objets de leurs mouvements dans des vidéos longues, pour raisonner sur des séquences temporelles complexes. Ces systèmes apprennent comme un bébé : en regardant, en expérimentant, en construisant une intuition du monde. LeCun imagine une IA qui apprend d’abord par les sens, puis parle. Comme un enfant qui comprend la permanence de l’objet avant de prononcer le mot « jouet ». L’IA ne serait plus un perroquet linguistique, mais un être capable de prévoir, d’anticiper, de comprendre les lois de la physique. Une IA qui a, elle aussi, lâché la cuillère mille fois. Cette transition pourrait déclencher des ruptures majeures. Des modèles capables de raisonner spatiale et temporelle, d’analyser des scénarios complexes en médecine ou climat, d’optimiser des robots en temps réel. Ce n’est plus seulement une amélioration de l’IA : c’est une transformation de sa nature. Pour les chercheurs, le message est clair : abandonner les LLMs traditionnels au profit des modèles mondiaux multi-sensoriels. Pour les entreprises, il faut investir dans l’open source et les données vidéo. LeCun a souvent été critiqué, mais ses prédictions se sont révélées justes. Si cette vision se confirme, l’IA de demain ne sera plus une machine à parler comme nous, mais une intelligence qui comprend le monde comme nous le faisons — par les yeux, par l’expérience, par la chute d’une cuillère.
