Command Palette
Search for a command to run...
SubLIME : Sélection de sous-ensemble par prédiction de corrélation de rang pour une évaluation efficace en données des LLM
Gayathri Saranathan Cong Xu Mahammad Parwez Alam Tarun Kumar Martin Foltin et al

Résumé
L’expansion rapide des grands modèles linguistiques (LLM) et des jeux de données dédiés au traitement du langage naturel a rendu les évaluations exhaustives sur des benchmarks informatiquement prohibitives. Inspirés par des compétitions à enjeux élevés telles que l’Olympiade internationale de mathématiques — où quelques problèmes bien choisis suffisent à distinguer les meilleurs participants —, nous proposons SubLIME, une méthode qui réduit les coûts d’évaluation de 80 à 99 % tout en préservant fidèlement l’ordre de classement. SubLIME entraîne un modèle de prédiction de corrélation de rang (RCP) qui combine des données de performance limitées provenant uniquement de 5 à 20 LLM de référence avec des métriques intrinsèques au jeu de données — difficulté, qualité et dispersion distributionnelle — afin de prédire dans quelle mesure un sous-ensemble candidat reflète fidèlement le classement obtenu sur l’intégralité du benchmark. Guidé par ces prédictions, SubLIME sélectionne un sous-ensemble « gagnant » (représentant de 1 à 20 % des données du jeu complet) pour évaluer de nouveaux LLM, préservant ainsi de manière significativement supérieure aux autres méthodes efficaces en données les classements globaux, sur dix benchmarks diversifiés.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.