Chine : chercheur récompensé par l'ICS pour étude sur les écarts psychométriques entre humains et modèles d'IA
À la 47e conférence annuelle de la Cognitive Science Society (CogSci2025), une recherche chinoise a marqué un tournant historique en remportant le prestigieux « Diversity & Social Inequality Award », le seul prix décerné chaque année par cette organisation internationale de premier plan. Menée par des chercheurs de l’École d’informatique de l’Académie militaire de technologie de défense nationale (NUDT), du Institut de recherche en ingénierie de l’information de l’Académie chinoise des sciences, et du Singapore Institute of Technology, l’étude intitulée AIPsychoBench: Understanding the Psychometric Differences between LLM and Humans a reçu une évaluation par les relecteurs à la perfection. Ce succès symbolise la première fois qu’un groupe chinois remporte ce prix, longtemps dominé par des universités américaines comme Yale ou Stanford. La Cognitive Science Society, fondée en 1979, est l’organisme académique le plus influent dans le domaine de la science cognitive, rassemblant des experts en intelligence artificielle, psychologie, neurosciences, linguistique, philosophie et éducation. Le prix « Diversity & Social Inequality » vise à récompenser les travaux explorant les différences psychologiques et comportementales dans les contextes de diversité ou les inégalités sociales, et son jury pluridisciplinaire confère une légitimité internationale incontestable. L’étude s’inscrit dans un contexte critique : l’essor des grands modèles linguistiques (LLM) dans des domaines à haut risque comme la médecine ou la finance soulève des préoccupations fondamentales sur leur « intelligibilité » cognitive. Bien que ces modèles imitent des comportements humains, leur mécanisme interne reste obscur. La « psychologie machine » émerge comme un domaine prometteur, mais une lacune majeure persiste : la comparaison psychométrique entre LLM et humains n’a pas été systématiquement explorée. Deux problèmes majeurs entravent cette comparaison : d’une part, les mécanismes d’alignement des LLM les poussent à répondre de manière neutre ou dépourvue de tendance, rendant impossible la mesure de traits psychologiques. D’autre part, les variations linguistiques induisent des « personnalités contradictoires » chez les LLM selon la langue utilisée — par exemple, un modèle préfère le refus direct en anglais mais une réponse diplomatique en chinois, bien que le sens soit identique. Pour surmonter ces défis, l’équipe a conçu AIPsychoBench, un cadre méthodologique rigoureux en quatre étapes : (1) sélection de 21 échelles psychométriques standardisées couvrant six dimensions psychologiques ; (2) utilisation d’un rôle léger (« répondant à un sondage ») pour contourner les restrictions d’alignement sans introduire de biais ; (3) test multi-langues (8 langues, dont le chinois, l’arabe, le russe) pour quantifier les effets linguistiques ; (4) vérification par GPT-4o pour assurer la cohérence entre les notes et les explications. Les résultats montrent deux découvertes fondamentales : premièrement, le rôle léger permet une réponse efficace (hausse de 41 %) tout en maintenant un biais moyen inférieur à 3 %, bien inférieur aux méthodes de « jailbreak » fortes. Deuxièmement, la langue est un facteur critique : les différences psychométriques entre les versions linguistiques dépassent 20 % pour certaines questions religieuses, révélant que les LLM reflètent les biais culturels présents dans leurs données d’entraînement, non pas une « personnalité divisée ». Ce travail établit la première base de données standardisée pour la psychométrie des LLM, ouvrant la voie à une « psychologie machine » rigoureuse. Il marque une avancée significative de la Chine dans les sciences cognitives interdisciplinaires, passant du rôle de suiveur à celui de partenaire équitable sur la scène mondiale. Parallèlement, une autre avancée majeure émerge dans le domaine médical : DeepMedix-R1, un modèle fondamental développé par le chercheur Lín Qíkǎ, doctorant à l’Université nationale de Singapour. Ce modèle génère des raisonnements structurés liés à des zones spécifiques des radiographies thoraciques, résolvant deux limites critiques des modèles existants : l’absence de transparence et la faible capacité de localisation. Grâce à une combinaison de données synthétiques et d’apprentissage par renforcement en ligne, DeepMedix-R1 améliore à la fois la qualité du raisonnement et la précision diagnostique. Il vise à devenir un assistant clinique fiable, particulièrement utile dans les zones à ressources limitées ou pour les dépistages à grande échelle. Ces deux projets illustrent une tendance croissante : l’intégration de la rigueur méthodologique, de la transparence et de la diversité dans les recherches en intelligence artificielle, ouvrant la voie à une IA plus compréhensible, équitable et applicable en contexte réel.
