Command Palette
Search for a command to run...
Ensemble De Données De Compréhension Multitâche À Grande Échelle MMLU-Pro
Date
Taille
URL de publication
URL du document
L'ensemble de données MMLU-Pro est un ensemble de données de compréhension multitâche à grande échelle plus puissant et plus stimulant, conçu pour évaluer plus rigoureusement les capacités des grands modèles linguistiques. L'ensemble de données contient 12 000 questions complexes dans toutes les disciplines. Cet ensemble de données a été publié en 2024 par des chercheurs de l’Université de Waterloo, de l’Université de Toronto et de l’Université Carnegie Mellon. L'article connexe est intitulé «MMLU-Pro : un test de compréhension linguistique multitâche plus robuste et plus stimulant".
- Questions et options : Chaque question du jeu de données comporte généralement 10 options à choix multiples, mais lors de la vérification manuelle, certaines options ont été réduites afin d’éliminer les réponses inappropriées. Initialement, chaque question proposait 4 options ; l’ajout d’options vise à accroître la complexité et la robustesse du système, en exigeant un raisonnement plus approfondi pour identifier la bonne réponse parmi un grand nombre de distracteurs potentiels.
- Source : Cet ensemble de données intègre des questions provenant de sources multiples :
- Problèmes MMLU originaux : Une partie de l’ensemble de données provient de l’ensemble de données MMLU original. Nous avons supprimé les problèmes triviaux et ambigus.
- Site web STEM : Questions STEM de haute qualité soigneusement sélectionnées sur Internet.
- TheoremQA : Problèmes d’annotation manuelle de haute qualité nécessitant des solutions de théorèmes.
- SciBench : Questions scientifiques pour les examens universitaires.
- Les données nouvellement ajoutées couvrent les disciplines suivantes : enrichies par des questions provenant de sites web STEM, de TheoremQA et de SciBench, notamment la biologie, le commerce, la chimie, l’informatique, l’économie, l’ingénierie, les mathématiques, la physique et la psychologie. Par rapport au MMLU original, il existe trois différences principales :
- L'ensemble de données MMLU d'origine ne contient que 4 options, et MMLU-Pro l'augmente à 10 options. L’augmentation des options rendra l’évaluation plus réaliste et plus stimulante. Des suppositions aléatoires donneront lieu à un score beaucoup plus bas.
- L'ensemble de données MMLU original contient principalement des questions axées sur les connaissances qui ne nécessitent pas beaucoup de raisonnement. Par conséquent, les résultats du PPL sont généralement meilleurs que ceux du CoT. En augmentant la difficulté des questions et en intégrant davantage de questions axées sur le raisonnement dans MMLU-Pro, le CoT peut être 20% plus élevé que celui du PPL.
- En augmentant le nombre de distracteurs, MMLU-Pro réduit considérablement la probabilité de deviner correctement par hasard, améliorant ainsi la robustesse du benchmark. Plus précisément, après avoir testé 24 styles d’invite différents, la sensibilité des scores du modèle aux changements d’invite a diminué de 4-5% dans MMLU à 2% dans MMLU-Pro.
Créer de l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.