HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 2 mois

SubLIME : Sélection de sous-ensemble par prédiction de corrélation de rang pour une évaluation efficace en données des LLM

Gayathri Saranathan Cong Xu Mahammad Parwez Alam Tarun Kumar Martin Foltin et al

SubLIME : Sélection de sous-ensemble par prédiction de corrélation de rang pour une évaluation efficace en données des LLM

Résumé

L’expansion rapide des grands modèles linguistiques (LLM) et des jeux de données dédiés au traitement du langage naturel a rendu les évaluations exhaustives sur des benchmarks informatiquement prohibitives. Inspirés par des compétitions à enjeux élevés telles que l’Olympiade internationale de mathématiques — où quelques problèmes bien choisis suffisent à distinguer les meilleurs participants —, nous proposons SubLIME, une méthode qui réduit les coûts d’évaluation de 80 à 99 % tout en préservant fidèlement l’ordre de classement. SubLIME entraîne un modèle de prédiction de corrélation de rang (RCP) qui combine des données de performance limitées provenant uniquement de 5 à 20 LLM de référence avec des métriques intrinsèques au jeu de données — difficulté, qualité et dispersion distributionnelle — afin de prédire dans quelle mesure un sous-ensemble candidat reflète fidèlement le classement obtenu sur l’intégralité du benchmark. Guidé par ces prédictions, SubLIME sélectionne un sous-ensemble « gagnant » (représentant de 1 à 20 % des données du jeu complet) pour évaluer de nouveaux LLM, préservant ainsi de manière significativement supérieure aux autres méthodes efficaces en données les classements globaux, sur dix benchmarks diversifiés.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
SubLIME : Sélection de sous-ensemble par prédiction de corrélation de rang pour une évaluation efficace en données des LLM | Articles de recherche | HyperAI