Modèle IA Centaur : Simulation de l'esprit humain ou simple imitation ?
Résumé Des chercheurs affirment avoir créé un modèle d'intelligence artificielle capable de simuler l'esprit humain. Leurs travaux, publiés aujourd'hui dans la revue Nature, décrivent un système appelé Centaur qui serait capable de prédire et de simuler le comportement humain dans n'importe quel test expérimental exprimé en langage naturel. Cependant, l'annonce attire le scepticisme de nombreux scientifiques. Contexte et Objectifs Traditionnellement, les scientifiques cognitifs construisent des modèles pour comprendre des aspects spécifiques des capacités humaines, comme la vision ou la mémoire. Chacun de ces modèles capture une petite partie isolée de la cognition humaine. Les avancées récentes dans les grands modèles linguistiques (LLMs) ont toutefois ouvert de nouvelles perspectives, potentiellement permettant d'appréhender l'ensemble des processus cognitifs humains, explique Marcel Binz, scientifique cognitif à l'Institut de l'IA centrée sur l'humain de Helmholtz Munich. Développement de Centaur Binz et son équipe ont créé une base de données nommée Psych-101, comprenant des données de 160 expériences psychologiques précédemment publiées, avec plus de 60 000 participants ayant réalisé plus de 10 millions de choix. En alimentant Llama, un LLM développé par Meta, avec ces données, ils ont entrainé le modèle sur 90% des décisions prises par les humains, puis ils l'ont testé sur les 10% restants. Centaur s'est montré plus aligné avec les données humaines que des modèles plus spécialisés, y compris dans des tâches complexes comme les expériences de « bandit à deux bras », où les participants doivent faire des choix entre deux machines à sous virtuelles avec des probabilités de gain inconnues ou changeantes. Le modèle a également réussi dans des tâches modifiées non présentes dans sa base d'entraînement, comme une version de l'expérience de bandit incluant une troisième machine. Selon Binz, cette capacité pourrait être utilisée pour développer des expériences en silicium avant de les tester sur des participants humains ou pour générer de nouvelles théories du comportement humain. Critiques et Points de Vue Contraires Néanmoins, plusieurs experts contestent les affirmations faites par les chercheurs. Jeffrey Bowers, scientifique cognitif à l'Université de Bristol, considère le modèle comme « absurde ». Il et ses collègues ont testé Centaur et déclaré des comportements nettement non-humains. Par exemple, dans des tests de mémoire à court terme, le modèle pouvait se souvenir de jusqu'à 256 chiffres, alors que les humains ne retiennent en moyenne que sept. Dans des tests de temps de réaction, il pouvait répondre en 1 milliseconde, ce que Bowers qualifie de temps « superhumain », indiquant que Centaur ne peut pas être fiable pour généraliser au-delà de ses données d'entraînement. Federico Adolfi, du Max Planck Institute for Neuroscience, est d'accord avec Bowers. Il estime que des tests plus rigoureux montreront que le modèle est « très facile à casser » et souligne que, même si la base de données Psych-101 est impressionnante, 160 expériences représentent « un grain de sable dans l'océan infini de la cognition ». Valeurs Reconnues Malgré ces critiques, certains chercheurs reconnaissent une valeur dans le travail. Rachel Heaton, spécialiste de la vision à l'Université de l'Illinois à Urbana-Champaign, pense que le modèle n'offre pas d'outil utile pour comprendre la cognition humaine, mais que la base de données Psych-101 est une contribution précieuse, utilisable par d'autres chercheurs pour évaluer leurs propres modèles. Blake Richards, du McGill University, voit du potentiel dans de futures études visant à comprendre le fonctionnement interne de Centaur. Katherine Storrs, scientifique neurovisuelle computationnelle à l'Université d'Auckland, ajoute que de nombreux neuroscientifiques computationnels sont « prudemment enthousiastes » face à de nouveaux outils comme Centaur. Bien que le papier puisse contenir des revendications injustifiées, beaucoup d'efforts ont été consacrés aux données et au modèle, qui pourraient « finalement rapporter scientifiquement » à long terme. Évaluation et Profil de l'Entreprise Les réactions de la communauté scientifique à l'article publié dans Nature sont mitigées. Même si Centaur montre des performances humaines dans certaines tâches, de nombreux experts mettent en garde contre son utilisation pour simuler précisément la cognition humaine, citant des capacités exagérément supérieures à celles de l’être humain. Cela souligne les limites actuelles des grands modèles linguistiques en matière de simulation cognitive. Cependant, l’initiative est appreciée pourhaving fourni une vaste base de données Psych-101, facilitant ainsi la recherche et la validation d'autres modèles. Centaur marque une étape importante dans l'utilisation des LLMs pour la psychologie, bien que son approche nécessite encore des améliorations significatives pour être pleinement acceptée par la communauté scientifique. Le travail continue d’attirer l’attention et pourrait contribuer à des avancées futures dans la compréhension des processus cognitifs. Cette synthèse clarifie les enjeux du développement et des critiques autour du modèle Centaur tout en respectant une structure cohérente et une lisibilité accrue. Les termes techniques essentiels sont expliqués pour assurer la clarté, et les arguments clés sont présentés de manière concise et efficace.