HyperAIHyperAI

Command Palette

Search for a command to run...

Fake citations IA inondent la littérature scientifique

Une récente étude publiée sur le serveur de prépublications arXiv met en lumière une crise grandissante au cœur de la littérature scientifique : l'explosion de citations falsifiées générées par l'intelligence artificielle. L'analyse révèle qu'en 2025, environ 146 900 références inexistantes ont été détectées dans des articles hébergés sur quatre dépôts majeurs, dont arXiv, bioRxiv, SSRN et PubMed Central. Ce phénomène ne concerne pas quelques auteurs isolés mais reflète une pratique plus large où les chercheurs utilisent massivement des modèles de langage (LLM) sans vérifier rigoureusement leurs sorties. Les outils d'intelligence artificielle générative, entraînés sur des millions de documents, excellent à produire du texte plausible et cohérent. Cependant, ils fonctionnent par prédiction statistique des mots suivants plutôt que par une vérification factuelle stricte. Cette tendance à « halluciner », c'est-à-dire à inventer des sources, des auteurs ou des études qui n'existent pas, menace désormais la fiabilité même de la recherche. Puisque la science avance en s'appuyant sur des découvertes antérieures, l'introduction de bases factives erronées compromet l'intégrité de l'édifice scientifique. Pour quantifier l'ampleur du problème, les chercheurs ont mené un audit à grande échelle de 111 millions de références issues de 2,5 millions de publications. Après avoir éliminé les erreurs de frappe et cherché des publications obscures via Google Scholar, ils ont constaté une augmentation brutale des citations non valides à partir du milieu de l'année 2024, coïncidant avec l'adoption généralisée des LLM. Avant 2023, le taux de citations introuvables était nettement plus faible et attribuée majoritairement à des erreurs humaines ponctuelles. L'étude a mis en évidence des schémas inquiétants. Ce sont principalement les jeunes chercheurs et les petites équipes qui incorporent le plus de fausses références, souvent accompagnées d'une hausse spectaculaire de leur productivité, multipliée par trois grâce à l'IA. De plus, ces erreurs tendent à créditer de manière disproportionnée des chercheurs déjà célèbres et de sexe masculin, risquant ainsi d'exacerber les inégalités existantes dans la reconnaissance académique. Les mécanismes de contrôle actuels, tels que la modération des prépublications et les révisions par les pairs, semblent largement inefficaces. Par exemple, bien que la modération d'arXiv ait identifié certaines anomalies, environ 78,8 % des citations falsifiées ont tout de même été acceptées et publiées. Les experts alertent sur les conséquences à long terme de cette infiltration. Si aucune intervention corrective n'est mise en place, la fiabilité de la production de connaissances scientifiques sera durablement érodée. Cela pourrait avoir des répercussions en cascade, affectant non seulement la découverte future mais aussi l'élaboration des politiques publiques et la compréhension que le grand public a de la science. Face à ce défi, la communauté scientifique doit urgemment renforcer la vérification des sources et adapter les processus d'évaluation pour contrer l'automatisation de la désinformation académique.

Liens associés

Fake citations IA inondent la littérature scientifique | Articles tendance | HyperAI