Des citations fantômes dans des papiers de NeurIPS : l’ironie d’une IA qui triche même chez les experts
Alerte ironie : des références fictives détectées dans des articles présentés au NeurIPS, prestigieux congrès d’intelligence artificielle L’entreprise spécialisée dans la détection d’IA, GPTZero, a analysé l’ensemble des 4 841 articles acceptés au Conference on Neural Information Processing Systems (NeurIPS), qui s’est tenu en novembre dernier à San Diego. Selon ses résultats, 100 références fictives ont été identifiées dans 51 articles, dont la fausseté a été confirmée. Ces chiffres, révélés à TechCrunch, soulèvent une question inquiétante : même parmi les chercheurs les plus éminents du domaine de l’IA, l’usage des modèles linguistiques génératifs (LLM) peut entraîner des erreurs graves, notamment la fabrication de citations. Obtenir une acceptation au NeurIPS est un accomplissement majeur pour tout chercheur en intelligence artificielle. C’est donc un paradoxe troublant de constater que des références fausses puissent apparaître dans des travaux soumis à un processus de relecture rigoureux par plusieurs experts. Toutefois, il convient de nuancer : 100 citations erronées réparties sur 51 articles parmi des dizaines de milliers de références dans l’ensemble des publications ne représentent qu’une proportion statistiquement négligeable. Comme l’a souligné NeurIPS dans un communiqué à Fortune — qui a été la première à rapporter ces résultats —, une telle erreur n’infirme pas nécessairement la validité scientifique du contenu des articles. Cela dit, une citation fausse n’est pas sans conséquence. Dans le monde académique, les références sont bien plus qu’un simple outil de soutien : elles constituent une forme de monnaie intellectuelle. Elles mesurent l’influence d’un chercheur, servent de preuve de son immersion dans la littérature scientifique et jouent un rôle clé dans les évaluations de carrière. Lorsque des citations sont inventées par une IA, cela dilue la valeur de ces indicateurs et menace l’intégrité du système académique. On ne peut pas vraiment reprocher aux relecteurs de n’avoir pas repéré ces erreurs. Le volume de travaux soumis chaque année aux grands congrès comme NeurIPS a explosé, entraînant une surcharge des processus de relecture. GPTZero met en lumière ce phénomène dans son rapport, parlant d’un « tsunami de soumissions » qui a mis à rude épreuve les capacités des comités de lecture. L’entreprise cite d’ailleurs une étude publiée en mai 2025, intitulée The AI Conference Peer Review Crisis, qui analyse précisément ce défi croissant dans les conférences phares du domaine. Mais alors, pourquoi les auteurs eux-mêmes n’ont-ils pas vérifié les citations générées par leurs outils ? Après tout, ils connaissent parfaitement les travaux auxquels ils se réfèrent. Cette faille révèle une réalité inquiétante : même les experts les plus avertis, dont la réputation est en jeu, ne parviennent pas toujours à garantir la fiabilité des informations produites par les LLM. Ce qui est ironique, c’est que ces outils, censés aider à gagner du temps dans des tâches fastidieuses comme la rédaction de références, finissent par introduire des erreurs qui compromettent la crédibilité même du travail scientifique. En fin de compte, cette situation pose une question plus large : si les meilleurs esprits du domaine ne parviennent pas à maîtriser les biais et les hallucinations des IA, que devons-nous penser de l’usage généralisé de ces outils dans la recherche, l’enseignement ou la production de contenu ? L’ironie est que la technologie censée améliorer la rigueur scientifique peut, en l’absence de vigilance, la compromettre.
