Pourquoi l’IA d’aujourd’hui ne sera jamais intelligente — le mythe des « quelques échantillons »
L’intelligence artificielle actuelle, malgré ses progrès spectaculaires, reste loin d’atteindre une véritable intelligence générale (AGI). Les systèmes d’IA d’aujourd’hui sont avant tout des modèles statistiques capables de reconnaître des motifs et de prédire avec une précision impressionnante, mais ils ne raisonnent pas de manière authentique. Leur capacité à s’adapter à de nouveaux contextes reste limitée, contrairement à l’extraordinaire flexibilité du cerveau humain. Une idée répandue dans le domaine est que les humains apprennent à partir de « moins d’exemples » que les machines, ce qui est souvent invoqué pour justifier l’efficacité supposée de l’apprentissage biologique. Pourtant, cette affirmation repose sur une méprise fondamentale. En réalité, l’humain est exposé à une quantité colossale de données dès la naissance. Sur une journée de 12 heures éveillées, un enfant reçoit des milliards d’informations sensorielles : visuelles, auditives, tactiles, olfactives, gustatives. En estimant conservativement à 10 « images » par seconde, un enfant de 10 ans a traité près de 1,5 milliard d’images visuelles. Ajoutons 36,5 millions d’éléments auditifs (mots ou sons distincts) et des millions d’informations tactiles et corporelles. En convertissant ces données brutes en termes numériques, on arrive à un minimum de 88 téraoctets de données sensorielles intégrées d’ici l’âge de 10 ans — une quantité considérable, bien supérieure aux jeux de données utilisés par les modèles d’IA les plus avancés. Par exemple, GPT-3 a été entraîné sur environ 45 téraoctets de texte, Llama 3 sur environ 60 téraoctets, tandis que des modèles comme GPT-4 ou Claude 3, bien que leurs données soient confidentielles, sont estimés entre 10 et 100 téraoctets. Ces volumes, bien que gigantesques, sont dépassés en intensité et en richesse par l’expérience sensorielle continue et multimodale d’un enfant. Ce n’est pas une question de quantité brute, mais de qualité et d’intégration. L’humain ne traite pas des données isolées comme une image ou un mot. Son cerveau intègre en temps réel les informations visuelles, auditives, tactiles et émotionnelles dans un contexte physique et social. L’apprentissage est actif, itératif, basé sur l’expérimentation, les erreurs et les retours immédiats. Cette « apprentissage incarné » — lié à la motricité, aux conséquences réelles et à la perception du monde — est absent des modèles d’IA actuels, qui sont souvent passifs et déconnectés du réel. Le vrai défi pour atteindre l’AGI ne réside pas dans l’accumulation de plus de données ou de puissance de calcul, mais dans la conception d’architectures capables d’imiter la manière dont le cerveau humain extrait du sens à partir d’un flux continu, multimodal et contextuel. Cela implique des systèmes capables de fusionner les sens, d’apprendre par interaction physique, de construire des modèles abstraits du monde et de raisonner symboliquement. Des recherches récentes sur les Embodied Multimodal Large Models (EMLMs) montrent que l’industrie commence à reconnaître cette nécessité. En somme, l’IA ne progresse pas en copiant les humains à la lettre, mais en s’inspirant de leur manière fondamentale d’apprendre : non pas par des données isolées, mais par une immersion profonde, intégrée et active dans le monde. Le chemin vers une intelligence véritable ne passe pas par des modèles plus grands, mais par des façons plus intelligentes d’apprendre — comme le font naturellement les êtres humains.