Étude Révèle des Similarités entre les Représentations d'Objets dans les Modèles de Langue Multimodaux et le Cerveau Humain
Les Multimodal Large Language Models (LLMs) et le cerveau humain représentent les objets de manière similaire, selon une étude Une étude menée par des chercheurs de l'Académie chinoise des sciences et publiée dans Nature Machine Intelligence a révélé que les Modèles Langages Multimodaux (MLLMs) représentent les objets naturels de manière comparable à celle observée dans le cerveau humain. Cette découverte pourrait avoir des implications intéressantes dans divers domaines, notamment la psychologie, la neurosciences et l'informatique, en fournissant des insights sur la façon dont les humains interprètent les informations sensorielles et accomplissent différentes tâches. Contexte de l’étude Les MLLMs, comme les versions les plus récentes de ChatGPT-3.5 de OpenAI et GeminiPro Vision 1.0 de Google DeepMind, ont montré une grande efficacité dans l'analyse et la génération de textes, d'images et même de courts vidéos. Ces modèles génèrent souvent des contenus convaincants, proches de ceux créés par des humains, ce qui les rend intéressants pour l'étude des représentations d'objets. Méthodologie Pour mieux comprendre comment les MLLMs représentent les objets, les chercheurs ont utilisé un paradigme expérimental appelé jugements de triplets. Dans ce cadre, les modèles étaient présentés avec trois objets et devaient sélectionner les deux qui se ressemblaient le plus. L'équipe a collecté 4,7 millions de jugements de triplets provenant des MLLMs et a calculé des plongements de faible dimension (embeddings) pour capturer la structure de similarité de 1,854 objets naturels. Ces embeddings sont des représentations mathématiques qui décrivent l’analogie entre divers objets sur plusieurs dimensions, plaçant les objets similaires plus près les uns des autres dans un espace abstrait. Résultats Les chercheurs ont constaté que les plongements de faible dimension obtenus étaient stables, prédictifs et présentait un groupement sémantique similaire aux représentations mentales humaines. Plus précisément, les embeddings générés par les MLLMs classaient naturellement les objets dans des catégories significatives, comme les "animaux", les "plantes", etc. Ceci indique que les MLLMs développent des représentations conceptuelles d’objets ressemblant à celles des humains. Convergence avec l’activité cérébrale L'une des découvertes les plus marquantes de cette étude est la forte corrélation entre les plongements de modèles et les schémas d’activité neuronale dans certaines régions cérébrales spécifiques. Les chercheurs ont observé une convergence significative entre les embeddings des modèles et les activités cérébrales dans des zones comme l’aire corporelle extrastriaire, l’aire de lieu paraphippocampe, le cortex rétro-sphénoïdal et l’aire fusiforme du visage. Cette alignement suggère que les représentations d'objets dans les MLLMs, bien qu'elles ne soient pas identiques à celles du cerveau humain, partagent des similitudes fondamentales qui reflètent des aspects clés de la connaissance conceptuelle humaine. Implications futures Les résultats de cette étude suggèrent que des représentations naturelles et humanoïdes d'objets peuvent émerger de manière intrinsèque dans les MLLMs après leur formation sur de grandes quantités de données. Cette conclusion ouvre la voie à des recherches futures visant à explorer davantage comment les MLLMs représentent les objets. En outre, elle pourrait contribuer au développement d’AI inspirées par le cerveau, apportant ainsi des avancées significatives dans le domaine de l'informatique cognitive. Évaluation par les professionnels Selon plusieurs experts de l'industrie, cette étude représente une étape importante dans la compréhension des mécanismes sous-jacents de l'intelligence artificielle. Elle fournit des preuves tangibles de la capacité des MLLMs à imiter les processus cognitifs humains, ce qui pourrait être crucial pour le développement de systèmes d'IA plus avancés et plus intuitifs. L'Académie chinoise des sciences, connue pour ses contributions majeures dans le domaine de l'intelligence artificielle, a une fois encore souligné l'importance de la recherche sur les MLLMs pour comprendre et mimiquer la cognition humaine. Profil de l'entreprise : Google DeepMind est une entreprise de premier plan dans le domaine de l'intelligence artificielle, spécialisée dans la création de modèles multimodaux avancés. OpenAI, quant à elle, est reconnue pour sa plateforme conversationale ChatGPT, qui a revolutionné les interactions humain-AI. Cette collaboration entre deux acteurs majeurs de l'IA et des chercheurs institutionnels souligne l'importance croissante des MLLMs dans la recherche scientifique et technologique. Si vous appréciez ce type de travail journalistique scientifique, soutenez notre publication en faisant un don, même mensuel. En remerciement, vous bénéficieriez d’un compte sans publicités. Votre soutien est essentiel pour maintenir une journalisme scientifique indépendant et rigoureux.