Pour comprendre l’IA, observez sa naissance : la leçon de l’évolution pour décrypter les modèles linguistiques
L’article de Quanta Magazine met en lumière une approche novatrice et profondément réfléchie de l’interprétabilité des modèles d’intelligence artificielle, telle qu’elle est développée par Naomi Saphra, chercheuse au Kempner Institute de Harvard. Alors que les modèles linguistiques comme ChatGPT sont devenus omniprésents, leurs mécanismes internes restent opaques. Saphra, qui s’apprête à rejoindre Boston University en 2026, milite pour une compréhension des modèles non pas à partir de leur état final, mais à travers leur processus d’apprentissage — une perspective inspirée de la biologie évolutive. Elle s’appuie sur la maxime de Dobzhansky selon laquelle « rien en biologie ne se comprend sans l’évolution », en la transposant au domaine de l’IA : « Rien en IA ne se comprend sans le descente de gradient stochastique », l’algorithme fondamental du processus d’entraînement. Contrairement à la majorité des chercheurs en interprétabilité, qui analysent les modèles une fois entraînés — en cherchant des motifs dans les activations neuronales ou en testant l’effet de perturbations ponctuelles — Saphra s’intéresse aux dynamiques d’apprentissage. Elle exploite les variations aléatoires entre différentes exécutions d’entraînement pour identifier des corrélations robustes entre la structure interne des modèles et leurs performances. Cette méthode permet d’établir des liens causaux plus fiables que l’analyse post-entraînement, car elle révèle ce qui se produit réellement pendant l’apprentissage, plutôt que ce qui se stabilise à la fin. Son parcours personnel, marqué par une maladie neurologique qui lui a interdit de taper ou d’écrire à la main, a profondément influencé sa démarche. Obligée de dicter son code et de travailler à son rythme, elle a été amenée à s’intéresser à des sujets peu explorés — notamment les dynamiques d’entraînement — qui, aujourd’hui, sont au cœur de ses contributions. Cette lenteur, loin d’être un handicap, lui a permis de s’affranchir des modes et de cultiver une recherche rigoureuse, peu soumise aux hype. Un des points forts de son approche est de remettre en question les interprétations superficielles. Par exemple, la présence de neurones hautement sélectifs (activés uniquement par des images de chats) est souvent perçue comme une preuve de leur importance. Or, des expériences montrent que les modèles performants peuvent même mieux fonctionner sans ces neurones, qui pourraient être des reliques évolutives sans réelle fonction causale. Cela illustre un risque majeur de l’analyse post-entraînement : confondre corrélation avec causalité. Enfin, Saphra insiste sur la nécessité d’une interprétabilité rigoureuse : les termes utilisés dans les analyses doivent être précis, mesurables, et non pas des métaphores floues. L’objectif n’est pas seulement de « comprendre » un modèle, mais de pouvoir prédire son comportement, surtout dans des contextes critiques comme la santé ou la justice. En somme, l’approche de Saphra représente une évolution fondamentale dans la recherche en IA : passer d’une vision statique et descriptive à une vision dynamique et causale, inspirée par les sciences de la vie. C’est une démarche essentielle pour construire des systèmes intelligents non seulement performants, mais aussi transparents, prévisibles et fiables.
