Google lance LMEval, un cadre open-source pour évaluer et comparer les modèles d'IA multimodaux
Google a lancé LMEval, un cadre open-source conçu pour faciliter et standardiser la comparaison des grands modèles de langage et multimodaux développés par différentes entreprises. LMEval permet aux chercheurs et aux développeurs d'évaluer systématiquement des modèles tels que GPT-4, Claude 3.7 Sonnet, Gemini 2.0 Flash, et Llama-3.1-405B à l'aide d'un processus unifié. La comparaison des nouveaux modèles d'IA est souvent compliquée et laborieuse. Chaque fournisseur utilise ses propres API, formats de données et dispositifs de benchmarks, ce qui rend les évaluations côte à côte lentes et complexes. LMEval résout ce problème en normalisant le processus. Une fois qu'un benchmark est configuré, il peut être appliqué à n'importe quel modèle supporté avec un minimum de travail, indépendamment de son fabricant. Benchmarks Multimodaux et Métriques de Sécurité LMEval ne se limite pas au texte ; il prend également en charge les benchmarks pour les images et le code, et des formats d'entrée supplémentaires peuvent être facilement ajoutés. Le système gère une variété d'évaluations, allant des questions oui/non et à choix multiples aux génération de texte libre. Il détecte également les stratégies de fuite, où les modèles donnent intentionnellement des réponses évasives pour éviter de produire du contenu problématique ou risqué. Les scores de sécurité de Giskard mesurent la capacité des différents modèles d'IA à éviter le contenu potentiellement nocif. Un plus grand pourcentage indique une meilleure sécurité. Compatibilité Cross-Plateforme LMEval fonctionne sur le cadre LiteLLM, qui atténue les différences entre les API des fournisseurs tels que Google, OpenAI, Anthropic, Ollama, et Hugging Face. Ainsi, le même test peut être exécuté sur plusieurs plateformes sans nécessiter la réécriture de code. L'une des caractéristiques majeures de LMEval est l'évaluation incrémentielle. Au lieu de devoir relancer l'intégralité du suite de tests à chaque ajout d'un nouveau modèle ou d'une nouvelle question, LMEval ne réalise que les tests supplémentaires requis. Cette approche économise du temps et réduit les coûts de calcul. Le système utilise également un moteur multithread pour accélérer les calculs en les exécutant de manière parallèle. Outils de Visualisation Google a intégré un outil de visualisation appelé LMEvalboard pour analyser les résultats. Ce tableau de bord permet de générer des graphiques radars pour visualiser les performances des modèles dans différentes catégories, et les utilisateurs peuvent zoomer sur des modèles spécifiques pour examiner leurs erreurs en détail. LMEvalboard soutient par ailleurs des comparaisons directes entre modèles, y compris des affichages graphiques côte à côte montrant leurs différences sur certaines questions. Stockage des Résultats Tous les résultats des tests sont stockés dans une base de données SQLite auto-chiffrante, garantissant leur accessibilité locale tout en les protégeant de l'indexation par les moteurs de recherche. Disponibilité et Resources Le code source ainsi que des notebooks d'exemple pour LMEval sont disponibles sur GitHub. Cela offre une transparence complète et facilite l'adaptation et l'utilisation du cadre par la communauté des chercheurs et des développeurs. En somme, LMEval représente une avancée significative dans le domaine des benchmarks d'IA, en simplifiant et en standardisant les processus d'évaluation, tout en offrant des outils robustes pour garantir la sécurité et analyser les performances des modèles.
