2,5 millions de papiers biomédicaux : des citations fausses révélées
Une étude majeure publiée le 7 mai dans la revue The Lancet révèle une inquiétante augmentation des citations falsifiées dans la littérature scientifique biomédicale. En analysant un échantillon de 2,5 millions d'articles publiés entre janvier 2023 et février 2026, les chercheurs ont identifié près de 3 000 documents contenant au moins une référence fictive, c'est-à-dire une citation qui ne peut être rattachée à aucune publication réelle. Il s'agit de la première recherche à évaluer l'ampleur de ce phénomène à l'échelle de la littérature biomédicale. L'équipe de recherche, dirigée par l'expert en intelligence artificielle Maxim Topaz de l'Université Columbia, a développé un pipeline automatisé pour inspecter les 125,6 millions de références présentes dans l'échantillon cible. L'analyse s'est concentrée sur 97 millions de références disposant d'un identifiant numérique unique valide, tel qu'un DOI ou un identifiant PubMed. Les auteurs ont utilisé des modèles de langage à grande échelle (LLM) pour détecter des incohérences entre le titre d'une référence et le titre du document réel auquel pointait son identifiant. De plus, chaque citation a été vérifiée dans quatre bases de données académiques majeures : PubMed, Crossref, OpenAlex et Google Scholar. Si un titre n'apparaissait dans aucune de ces sources, il a été classé comme fabriqué. Les résultats montrent une contamination rapide du corpus scientifique. Le nombre de publications contenant des citations falsifiées a augmenté de manière drastique, passant à un taux 12 fois supérieur en 2025 par rapport à 2023. Plus précisément, 2 564 articles contenaient une ou deux fausses références, tandis que 246 autres en renfermaient trois ou davantage. Une vérification manuelle menée par trois réviseurs indépendants sur un échantillon de 500 références suspectes a confirmé que sept citations sur dix étaient effectivement inventées. L'origine de ces fausses citations reste un point de débat, bien que la rapidité de la croissance du problème suggère fortement l'intervention de l'intelligence artificielle générative, capable d'inventer des références réalistes. Topaz et ses collègues estiment que leurs conclusions constituent une sous-estimation conservatrice de la réalité. Ce que l'étude a identifié représente le bas de la plage de la prévalence réelle, laissant présager que le véritable nombre de fausses citations est encore plus élevé. Des experts extérieurs, comme Kathryn Weber-Boer, directrice de la scientométrie chez Digital Science, soulignent que l'étude constitue une contribution solide et initiale, mais notent également que la fiabilité de certaines bases de données, comme Google Scholar, est limitée car elles peuvent parfois indexer des références fictives sans les relier à des publications authentiques. Une analyse antérieure de la revue Nature estimait à environ 1,6 % le pourcentage de publications en 2025 contenant au moins une référence inexistante. Ces découvertes appellent à une vigilance accrue de la part des éditeurs scientifiques et des chercheurs pour préserver l'intégrité des données biomédicales.
