L’IA révise les articles scientifiques — et la communauté scientifique n’est pas prête
Les évaluateurs d’IA sont là — et nous ne sommes pas prêts. Les plateformes de prépublications ont longtemps joué le rôle de bateaux rapides face au cargo lent de l’éditorial scientifique traditionnel, offrant une agilité propice à l’expérimentation audacieuse. Le dernier projet d’openRxiv, l’organisation à but non lucratif basée à New York qui gère les archives bioRxiv et medRxiv, est peut-être le plus provocateur à ce jour. L’organisation a annoncé, le mois dernier, l’intégration d’un outil d’évaluation alimenté par l’intelligence artificielle sur ses plateformes. Développé par la start-up israélienne q.e.d Science, ce système fournit une rétroaction générée par IA en quelques minutes seulement — souvent moins de 30 — en évaluant l’originalité d’un manuscrit, repérant les failles logiques, et proposant des ajustements méthodologiques ou des expériences supplémentaires. L’attrait d’un évaluateur automatisé est évident. Pour tout chercheur ayant attendu des mois une décision, ou déchiffré une remarque sarcastique d’un « relecteur #2 » peu coopératif, une alternative algorithmique semble être le remède idéal à l’inefficacité du système actuel. Les modèles de langage à grande échelle (LLM) peuvent fournir des commentaires en quelques secondes, sans conflit d’intérêts. Mais il y a une différence fondamentale entre un processus efficace et un processus valide. Alors que la communauté scientifique s’empare de la technologie de l’IA, elle doit veiller à ne pas résoudre un problème logistique en en créant un autre, d’ordre intellectuel. La relecture par les pairs a deux objectifs. D’une part, elle doit valider le travail courant : des études rigoureuses qui testent des hypothèses ou comblent des lacunes dans la connaissance, en examinant soigneusement les statistiques, les méthodes et la cohérence logique. D’autre part, elle doit repérer les rares découvertes qui contredisent les cadres établis ou révèlent des anomalies, en évaluant non pas si les règles ont été respectées, mais si elles restent pertinentes. Les humains, en théorie, sont capables de remplir les deux rôles. L’IA, en revanche, peut ne pas l’être. Les LLM peuvent vérifier les statistiques, détecter le plagiat, confirmer les citations — une contribution qui, à elle seule, pourrait transformer le processus. En déléguant le travail routinier à une machine, l’attention humaine, le ressource la plus rare en science, pourrait être libérée pour les questions les plus fondamentales. Mais les limites de l’IA sont réelles. Faire confiance à un évaluateur d’IA au-delà de ces limites, c’est risquer de s’exposer à de graves erreurs. Un premier problème est la tendance à la moyenne. La relecture humaine, bien qu’imparfaite, repose sur un échantillonnage : trois spécialistes apportent des points de vue distincts, et l’éditeur tente de les harmoniser. L’IA, elle, produit une synthèse unique, un « avis moyen ». Une étude de 2024, utilisant GPT-4 pour générer des commentaires, a montré que l’IA était remarquablement bonne pour prédire ce que dirait un relecteur moyen (W. Liang et al., NEJM AI, https://doi.org/g88s5h). Mais ce n’est pas tout. En s’approchant de la moyenne, l’IA risque de biaiser le jugement, en éliminant les voix critiques ou novatrices, et en favorisant les travaux conformes, au détriment des idées audacieuses. La science progresse souvent par des ruptures, pas par des consensus. Si l’IA devient le filtre principal, elle pourrait, sans le vouloir, étouffer l’innovation. Il faut donc introduire l’IA non pas comme remplaçant, mais comme outil complémentaire — un assistant, pas un juge.
