HyperAIHyperAI
Back to Headlines

Les modèles linguistiques géants révèlent comment le cerveau perçoit le sens des scènes du quotidien

il y a 4 jours

Lorsque nous regardons le monde, notre cerveau ne se contente pas de reconnaître des objets comme « un chien » ou « une voiture » ; il saisit aussi le sens global de la scène : ce qui se passe, où cela se déroule, et comment les éléments s’organisent entre eux. Pendant des années, les scientifiques ont manqué de moyens efficaces pour mesurer cette compréhension riche et complexe. Une étude récente publiée dans Nature Machine Intelligence apporte une avancée majeure grâce à l’utilisation de modèles linguistiques à grande échelle (LLM). Ian Charest, professeur agrégé en psychologie à l’Université de Montréal et titulaire de la Chaire Courtois en neurosciences fondamentales, a mené cette recherche avec des collègues de l’Université du Minnesota, de l’Université d’Osnabrück (Allemagne) et de l’Université libre de Berlin. En alimentant des descriptions de scènes naturelles dans des LLM — les mêmes modèles derrière des outils comme ChatGPT —, les chercheurs ont créé une « empreinte linguistique » du sens d’une scène. Cette empreinte reflète non seulement les objets présents, mais aussi les actions, les relations spatiales et les contextes. Ce qui est remarquable, c’est que ces empreintes correspondent étroitement aux motifs d’activité cérébrale enregistrés par IRM fonctionnelle lorsque des personnes observent les mêmes scènes, comme un groupe d’enfants jouant ou un paysage urbain. Grâce à ces modèles, il devient possible de déduire, à partir d’une simple phrase, la scène visuelle perçue par une personne, ou de prédire avec précision la réponse cérébrale à des scènes de nourriture, de lieux ou de visages humains. Les chercheurs ont poussé plus loin leur exploration en entraînant des réseaux de neurones artificiels pour prédire ces empreintes LLM à partir d’images. Résultat : ces réseaux surpassent même certains des modèles d’IA visuelle les plus avancés disponibles aujourd’hui, malgré une formation sur moins de données. Cette avancée a été rendue possible grâce au travail du professeur Tim Kietzmann et de son équipe à l’Université d’Osnabrück. Le premier auteur de l’étude est le professeur Adrien Doerig de l’Université libre de Berlin. Selon Ian Charest, ces résultats suggèrent que le cerveau humain pourrait représenter les scènes visuelles de manière surprenante, proche de la manière dont les LLM comprennent le langage. Cette découverte ouvre la voie à de nouvelles applications : décoder les pensées, améliorer les interfaces cerveau-machine, développer des systèmes d’IA plus humains, ou même concevoir des prothèses visuelles pour les personnes atteintes de déficiences visuelles sévères. En somme, cette recherche représente une étape décisive pour comprendre comment le cerveau donne du sens au monde visuel, tout en inspirant des progrès concrets dans les technologies de l’intelligence artificielle et les neurosciences.

Related Links