Étude : ChatGPT échoue aux quiz scientifiques
Une étude menée par le professeur Mesut Cicek et ses collègues de l'Université d'État de Washington met en lumière les limites actuelles des modèles d'intelligence artificielle générative dans le domaine scientifique. Les chercheurs ont soumis plus de 700 hypothèses extraites d'articles scientifiques à ChatGPT en lui demandant de déterminer si ces affirmations étaient vraies ou fausses en se basant sur les résultats de la recherche. Pour garantir la fiabilité de leurs observations, chaque requête a été répétée dix fois. Les résultats, globalement, ont laissé le système avec une note de « D », indiquant une performance insuffisante pour une utilisation autonome dans l'évaluation de la validité scientifique. L'intelligence artificielle a eu du mal à distinguer avec précision les faits établis des hypothèses non confirmées. Dans de nombreux cas, ChatGPT a produit des réponses erronées ou a affirmé la véracité de propositions qui avaient été invalidées par la communauté scientifique. Cette incohérence suggère que l'outil manque de la rigueur et de la nuance nécessaires pour analyser de manière fiable des données complexes et spécialisées. Cette expérience souligne un défi majeur dans l'intégration de l'IA dans les processus académiques et de recherche. Bien que les modèles de langage soient efficaces pour synthétiser des informations ou générer du texte créatif, ils peinent à effectuer un raisonnement critique profond et à vérifier l'exactitude factuelle des contenus qu'ils traitent. L'incapacité à maintenir une constance sur plusieurs tentatives de la même question indique que l'IA ne possède pas encore une compréhension solide des relations de causalité et de preuve au sein de la littérature scientifique. Les auteurs de l'étude insistent sur la nécessité de ne pas considérer ces outils comme des arbitres définitifs de la vérité scientifique. L'utilisation de ChatGPT pour valider des hypothèses ou pour servir de source unique d'information pourrait conduire à la propagation d'erreurs et à la désinformation. La recherche suggère que l'IA doit plutôt être vue comme un outil d'aide à la rédaction ou à l'exploration, dont les sorties doivent être systématiquement vérifiées par des experts humains qualifiés. Le contexte de cette étude s'inscrit dans une préoccupation plus large concernant la qualité de l'information générée par l'IA. Alors que les entreprises technologiques continuent de développer des modèles plus puissants, la fiabilité dans des domaines spécialisés reste un obstacle majeur. L'échec de ChatGPT dans ce test précis rappelle que la technologie actuelle ne remplace pas encore le jugement critique et l'expertise humaine dans des tâches complexes exigeant une analyse fine des preuves. En conclusion, bien que l'intelligence artificielle offre des perspectives prometteuses, cette recherche démontre qu'elle n'est pas encore prête à être utilisée pour évaluer la véracité de déclarations scientifiques. La prudence est de mise et une validation humaine reste indispensable pour garantir l'intégrité des connaissances. Les chercheurs et les professionnels doivent continuer à utiliser ces outils avec discernement, en gardant à l'esprit leurs limites actuelles en matière de raisonnement logique et de vérification factuelle.
