HyperAIHyperAI

Command Palette

Search for a command to run...

ICLR 2026 secoué par des hallucinations AI dans les évaluations

Moins de deux semaines après l’affaire « OpenReview » qui avait exposé de manière massive les identités des relecteurs, la conférence ICLR 2026 est de nouveau au centre d’un scandale. Une enquête menée par GPTZero révèle que, sur 300 articles sélectionnés au hasard parmi les près de 20 000 soumissions, plus de 50 contiennent des « hallucinations » graves : références falsifiées, auteurs inventés, données expérimentales inexistantes. Certains de ces travaux ont même obtenu des notes moyennes de 8,0, un score qui, dans le système d’évaluation d’ICLR, correspond à un potentiel pour une présentation orale ou une attention Spotlight — soit les meilleurs 1,8 % des soumissions. Ces résultats sont particulièrement inquiétants au regard des règles strictes adoptées par ICLR en août 2024, qui exigeaient une transparence totale sur l’usage des modèles d’intelligence artificielle (LLM) et interdisaient formellement la falsification de données. Pourtant, des cas comme TamperTok ou MixtureVitae montrent que les auteurs ont manipulé des références en remplaçant des noms d’auteurs réels par des identités fictives, parfois en conservant les trois premiers noms pour tromper l’œil. D’autres articles, comme IMPQ, utilisent un arXiv ID réel mais le rattachent à un document totalement différent, une astuce difficile à détecter pour un relecteur surchargé. L’un des cas les plus choquants est celui de Safe-LLM, dont la page de couverture indique « Publié à ICLR 2025 », bien qu’il soit encore en phase de relecture. D’autres soumissions contiennent des références entièrement inexistantes, ou des titres et dates erronés, malgré des liens valides. Ces erreurs, bien qu’élémentaires, ont échappé à la relecture, ce qui souligne un grave dysfonctionnement du système. Derrière ce phénomène, se cache une crise structurelle : l’explosion du nombre de soumissions (19 490 pour ICLR 2026) a dépassé les capacités humaines de relecture. Avec plus de 75 000 évaluations, le système est saturé. Le manque de relecteurs qualifiés a conduit à une dévaluation de la qualité, et même à une « guerre des IA » : des relecteurs utilisent eux-mêmes des LLM, et des études montrent que 21 % des évaluations pourraient être générées par l’IA. Cette situation crée un cercle vicieux où les articles malhonnêtes passent inaperçus, tandis que les travaux authentiques risquent d’être noyés dans le bruit. GPTZero conclut que le système actuel de relecture ne dispose d’aucun outil fiable pour détecter les hallucinations générées par les LLM. Même des vérifications basiques, comme la validation des références, deviennent impossible à échelle. L’approche actuelle, fondée sur la responsabilité morale de l’auteur, s’est avérée insuffisante. Sans mécanismes technologiques et organisationnels robustes, la crédibilité des conférences scientifiques de pointe est gravement menacée. Le défi n’est plus seulement de lutter contre les fausses publications, mais de repenser entièrement le processus de relecture dans l’ère de l’IA générative.

Liens associés