HyperAI
Back to Headlines

Controverse : Etude accuse LM Arena de favoriser les grands laboratoires d'IA dans ses classements

il y a un mois

Study Accuses LM Arena de Faire Favoritisme Vers des Laboratoires d'IA de Première Ligne Une nouvelle étude menée conjointement par l'IA lab Cohere, Stanford, MIT et Ali2 accuse LM Arena, l'organisation derrière le populaire benchmark Chatbot Arena, d'aider certaines entreprises technologiques à obtenir de meilleurs scores sur son classement, au détriment de leurs concurrents. LM Arena, fondée en 2023 à l'Université de Californie, Berkeley, est un projet de recherche académique qui est devenu une référence pour évaluer les modèles d'IA. Les tests sont organisés sous forme d'"arènes" où deux réponses d'IA sont présentées côte à côte, et les utilisateurs doivent choisir la meilleure. Selon les auteurs de l'étude, LM Arena a permis à quelques grandes entreprises d'IA comme Meta, OpenAI, Google et Amazon de tester en privé plusieurs variantes de leurs modèles, sans publiant les scores des pires performances. Cela a facilité leur ascension au top du leaderboard. Par exemple, Meta a testé 27 variantes de modèles entre janvier et mars 2024 avant le lancement de Llama 4, mais n’a rendu publique que la score d'un seul, qui s’est avéré être parmi les meilleurs. Sara Hooker, vice-présidente de la recherche en IA chez Cohere et co-auteure de l'étude, a déclaré à TechCrunch : « Seules quelques [entreprises] ont été informées que ce test en privé était possible, et certains ont reçu beaucoup plus de tests privés que d'autres. C'est une forme de gamification. » Méthodologie et Résultats de l'Étude Le travail de recherche a débuté en novembre 2024, après que les chercheurs ont appris que certaines entreprises d'IA pourraient bénéficier d’un accès préférentiel à Chatbot Arena. Au total, ils ont mesuré plus de 2,8 millions de batailles sur Chatbot Arena sur une période de cinq mois. Les auteurs soutiennent avoir trouvé des preuves que LM Arena permettait à des entreprises spécifiques, notamment Meta, OpenAI et Google, de recueillir plus de données en faisant apparaître leurs modèles plus fréquemment dans des batailles. Ce taux d'échantillonnage accru a été déterminé comme un avantage injuste, car il pouvait améliorer les performances de leurs modèles sur Arena Hard, un autre benchmark maintenu par LM Arena, de 112%. Réactions de LM Arena et des Autres Acteurs Face à ces accusations, LM Arena a riposté, affirmant que l'étude contenait de nombreuses "inexactitudes" et une analyse "contestable". Dans un communiqué, Ion Stoica, cofondateur de LM Arena et professeur à l'UC Berkeley, a souligné : « Nous sommes engagés dans des évaluations impartiales, menées par la communauté, et nous invitons tous les fournisseurs de modèles à soumettre plus de modèles pour les tests et à améliorer leurs performances basées sur la préférence humaine. Si un fournisseur de modèles choisit de soumettre plus de tests qu'un autre, cela ne signifie pas que le second est traité de façon injuste. » Armand Joulin, chercheur principal chez Google DeepMind, a également contesté certains chiffres de l'étude sur X, indiquant que Google n'avait envoyé qu'un seul modèle Gemma 3 pour des tests pré-lancement. Sara Hooker a répondu à Joulin sur X, promettant une correction de la part des auteurs. Limitations de l'Étude Une importante limitation de l'étude réside dans sa méthode de classification des modèles en phase de test privé. Les auteurs ont utilisé des questions de self-identification, interrogeant les modèles sur leur origine, ce qui n'est pas une méthode infaillible. Malgré cela, Hooker affirme que lorsque les auteurs ont partagé leurs conclusions préliminaires avec LM Arena, l'organisation n'a pas nié ces allégations. Appels à des Changements Les auteurs de l'étude recommandent plusieurs modifications pour rendre Chatbot Arena plus équitable. Ils suggèrent de fixer une limite claire et transparente sur le nombre de tests privés que chaque laboratoire peut effectuer, et de rendre publics les scores de ces tests. Ils proposent également d'ajuster le taux d'échantillonnage pour garantir que tous les modèles apparaissent dans le même nombre de batailles. LM Arena a été ouvert à cette dernière recommandation et a indiqué qu’il travaillerait sur un nouvel algorithme d'échantillonnage. Impact sur la Confiance et l'Industrie Cette étude survient quelques semaines après que Meta a été pris en flagrant délit de tricherie sur les benchmarks de Chatbot Arena autour du lancement de Llama 4. Meta avait optimisé l'une de ses versions pour la "conversationalité", ce qui lui avait valu un score impressionnant, mais la compagnie n'a jamais publié ce modèle optimisé, et la version standard a fini par performancer bien moins bien. À l'époque, LM Arena avait souligné la nécessité pour Meta d'être plus transparente. Récemment, LM Arena a annoncé son intention de lancer une entreprise et de lever des fonds auprès d'investisseurs. Cette étude accentue donc les interrogations quant à la capacité de telles organisations à évaluer les modèles d'IA de manière impartiale, sans que l’influence des grands groupes ne vienne entacher le processus. Évaluation de l'Industrie et Projet de LM Arena Les spécialistes de l'industrie estiment que cette étude pourrait avoir des implications significatives sur la confiance accordée aux plateformes de benchmark. LM Arena, bien qu’accusé de favoritisme, reste une organisation influente et respectée dans le domaine de l'IA. Sa transformation en entreprise commerciale renforce les revendications des auteurs concernant la transparence et l'impartialité nécessaires pour préserver l'intégrité de la recherche en IA. LM Arena continue d'appeler à des contributions de la communauté, mais ces accusations mettent en lumière la nécessité de renforcer la vérification et la validation des processus de test. Ce débat promet de stimuler des discussions sur les normes de bonne pratique en matière d'évaluation des modèles d'IA, un sujet crucial à mesure que l'IA devient de plus en plus intégrée à nos vies quotidiennes. En conclusion, cette étude pose des questions importantes sur l'équité et la transparence dans l'évaluation des technologies d'IA, et il sera essentiel de suivre de près les actions que LM Arena entreprendra pour répondre à ces inquiétudes.

Related Links