ChatGPT ignore les rétractations scientifiques : une étude révèle son incapacité à détecter les études discréditées
Une nouvelle étude met en lumière un grave défaut des modèles de langage à grande échelle (MLG), comme ChatGPT : leur incapacité à détecter les articles scientifiques rétractés ou discutables lors d’une revue de littérature. Conduite par le professeur Mike Thelwall et la doctorante Irini Katsirea, cette recherche, publiée dans Learned Publishing en 2025, fait partie du projet « Science non fiable : dévoiler l’impact de la médiatisation erronée », lancé en octobre 2024. Les chercheurs ont sélectionné 217 études scientifiques hautement médiatisées, dont la réputation avait été compromise par une rétraction ou des préoccupations sérieuses concernant leur validité. Chaque article a été soumis à ChatGPT, qui en a évalué la qualité 30 fois, soit un total de 6 510 rapports. Rien dans ces évaluations ne mentionnait la rétraction ou les erreurs connues des articles. Au contraire, 190 d’entre eux ont reçu des notes élevées, qualifiant certains d’« exceptionnels mondialement » ou « d’excellents internationalement ». Les critiques formulées par ChatGPT portaient uniquement sur des aspects académiques tels que la méthodologie ou la clarté, jamais sur la fiabilité ou l’existence d’un retrait. Dans une seconde phase, 61 affirmations provenant des articles rétractés ont été extraites. ChatGPT a été interrogé dix fois sur la véracité de chacune. Il a répondu « oui » ou a donné une réponse positive dans deux tiers des cas, y compris pour des déclarations démontrées fausses depuis plus de dix ans. Cette tendance à ignorer les corrections scientifiques et les erreurs fondamentales souligne un risque majeur d’auto-confirmation d’informations erronées. Les auteurs concluent que ces résultats mettent en évidence l’importance cruciale de vérifier toute information fournie par les MLG, surtout dans un contexte académique ou de prise de décision basée sur la recherche. Le professeur Thelwall a exprimé sa surprise face à ces résultats, qualifiant leur absence de détection des rétractations « inquiétante ». Il espère que ces découvertes inciteront les développeurs à améliorer la fiabilité des systèmes d’IA générative, tout en avertissant les utilisateurs de ne pas accorder une confiance aveugle à des réponses qui peuvent paraître crédibles mais sont en réalité trompeuses. Cette étude s’inscrit dans un débat croissant sur la responsabilité éthique et la fiabilité des outils d’IA dans le domaine scientifique, rappelant que, malgré leur puissance apparente, les modèles comme ChatGPT restent des outils aux limites bien définies, nécessitant une vigilance critique de la part de leurs utilisateurs.