Des « bugs fantastiques » dévoilés dans les benchmarks d’IA : une alerte pour la fiabilité des modèles
Après avoir examiné des milliers de benchmarks utilisés dans le développement de l’intelligence artificielle, une équipe de l’Université Stanford a identifié que jusqu’à 5 % d’entre eux pourraient présenter des failles graves, avec des conséquences à long terme sur l’évaluation et l’évolution des modèles. Chaque fois qu’un chercheur entraîne un nouveau modèle pour comprendre le langage, reconnaître des images ou résoudre des énigmes médicales, une question fondamentale se pose : ce modèle est-il meilleur que les précédents ? Pour répondre, les chercheurs s’appuient sur des batteries de benchmarks, des tests standardisés censés mesurer les performances. Or, avec des dizaines de milliers de benchmarks répartis sur plusieurs jeux de données, la fiabilité de ces évaluations est de plus en plus remise en question. Dans un article présenté à la conférence NeurIPS 2025, Sanmi Koyejo, professeure adjointe en informatique à Stanford, et Sang Truong, doctorant au laboratoire STAIR (Stanford Trustworthy AI Research), ont utilisé des méthodes statistiques fondées sur la théorie de la mesure pour analyser des milliers de benchmarks. Leurs résultats révèlent que jusqu’à 1 modèle sur 20 pourrait être invalide. Ces erreurs, qu’ils qualifient de « bugs fantastiques » en référence aux créatures imaginaires du cinéma, ont des effets concrets : elles peuvent fausser les scores, promouvoir des modèles médiocres et pénaliser injustement des modèles performants. Ces biais influencent directement les décisions stratégiques en matière de financement, de recherche et d’allocation des ressources, poussant les équipes à investir dans des modèles moins capables ou à retarder la mise en œuvre de bons modèles. Les défauts sont variés : erreurs factuelles, étiquetages incohérents, questions ambiguës ou biaisées culturellement, incohérences logiques, ou encore erreurs de formatage — comme dans un benchmark où « 5 dollars » ou « $5.00 » étaient considérés comme faux alors que la bonne réponse était « $5 ». Dans un cas étudié, le modèle DeepSeek-R1 était classé troisième dernier selon un benchmark non corrigé, puis montait en seconde position après correction. Pour détecter ces anomalies, l’équipe a combiné des outils statistiques classiques avec un modèle de langage à grande échelle (LLM) capable d’analyser les questions suspectes et de justifier leur mise en évidence. Ce cadre hybride a permis d’identifier avec 84 % de précision les questions problématiques dans neuf benchmarks populaires, réduisant ainsi considérablement le temps nécessaire à un examen humain. Les chercheurs plaident désormais pour une gestion continue des benchmarks, au lieu du modèle actuel « publiez-et-oubliez ». Bien que leur travail ait suscité des réactions mitigées — la reconnaissance de la nécessité d’améliorations, mais une réticence à s’engager dans un suivi régulier — ils espèrent que leur approche sera adoptée par les organisations de benchmarking. Une amélioration des standards permettrait une évaluation plus juste des modèles, une meilleure allocation des ressources et une confiance accrue dans les systèmes d’IA. « À mesure que l’IA s’intègre plus profondément dans des secteurs critiques comme la santé ou les transports, l’impact de ces changements pourrait être profond », souligne Koyejo, prédisant une innovation plus fiable, plus sûre et plus puissante.
