HyperAIHyperAI

Command Palette

Search for a command to run...

Les classements des LLM sont fragiles : un peu de bruit suffit à inverser les résultats

Les plateformes de classement des modèles de langage à grande échelle (LLM) peuvent être largement trompeuses, selon une étude menée par des chercheurs du MIT. Face à la multitude de LLM disponibles, les entreprises s’appuient souvent sur ces plateformes pour choisir le modèle le plus adapté à leurs besoins, comme la synthèse de rapports commerciaux ou le tri des demandes clients. Ces outils comparent généralement deux modèles sur une même requête, en se basant sur les préférences des utilisateurs, puis produisent un classement global. Cependant, les chercheurs du MIT ont découvert que des dizaines de votes isolés peuvent suffire à inverser le classement, rendant ces résultats potentiellement instables et non reproductibles. En appliquant une méthode d’analyse rapide, développée à partir de travaux antérieurs sur la généralisation statistique, l’équipe a pu identifier les votes les plus influents sans avoir à tester manuellement des milliards de combinaisons. Leur méthode permet de détecter les données qui ont le plus d’impact sur le classement, offrant ainsi aux utilisateurs une manière concrète d’évaluer la robustesse des résultats. Les tests ont révélé une sensibilité alarmante : dans un classement comportant plus de 57 000 votes, l’élimination de seulement deux votes (0,0035 %) a suffi à faire changer le modèle en tête. Sur une autre plateforme plus rigoureuse, utilisant des annotateurs experts, il a fallu retirer environ 3 % des évaluations (83 sur 2 575) pour provoquer un changement significatif. Les chercheurs ont également constaté que de nombreux votes influents étaient probablement dus à des erreurs humaines : clics malencontreux, distraction ou incapacité à distinguer la meilleure réponse. « Si le classement du meilleur modèle dépend de seulement deux ou trois votes parmi des dizaines de milliers, on ne peut pas supposer qu’il sera systématiquement supérieur dans une application réelle », souligne Tamara Broderick, professeure au MIT et auteure principale de l’étude. Elle et ses collègues, dont les doctorants Jenny Huang et Yunyi Shen ainsi que Dennis Wei d’IBM Research, ont proposé des pistes pour améliorer la fiabilité des classements, comme recueillir des informations complémentaires (niveau de confiance, justifications) ou introduire des modérateurs humains pour valider les évaluations. Cette recherche met en garde contre la dépendance aveugle aux classements, surtout dans des contextes où le choix d’un LLM peut avoir des conséquences coûteuses pour une entreprise. Jessica Hullman, professeure à Northwestern University non impliquée dans l’étude, estime que ces résultats révèlent des dépendances fortes et fragiles dans les méthodes d’agrégation des préférences humaines, et souligne l’importance de repenser la collecte de données. Financée par l’Office of Naval Research, le MIT-IBM Watson AI Lab, la National Science Foundation, Amazon et une subvention CSAIL, cette étude sera présentée à la conférence internationale ICML. Elle ouvre la voie à des méthodes plus robustes d’évaluation des LLM, en mettant l’accent sur la nécessité de transparence et de résilience face aux biais de données.

Liens associés

Les classements des LLM sont fragiles : un peu de bruit suffit à inverser les résultats | Articles tendance | HyperAI