HyperAI超神经

* Cet ensemble de données prend en charge l'utilisation en ligne.Cliquez ici pour sauter.

L'ensemble de données MMLU-Pro est un ensemble de données de compréhension multitâche à grande échelle plus puissant et plus stimulant, conçu pour évaluer plus rigoureusement les capacités des grands modèles linguistiques. L'ensemble de données contient 12 000 questions complexes dans toutes les disciplines. Cet ensemble de données a été publié en 2024 par des chercheurs de l’Université de Waterloo, de l’Université de Toronto et de l’Université Carnegie Mellon. L'article connexe est intitulé «MMLU-Pro : un test de compréhension linguistique multitâche plus robuste et plus stimulant".

Questions et options :Chaque question de l’ensemble de données comporte généralement 10 options à choix multiples, mais au cours du processus de révision manuelle, certaines options ont été réduites pour éliminer les options déraisonnables. Chaque question comportait à l'origine 4 options, et les options supplémentaires visent à augmenter la complexité et la robustesse, ce qui nécessite un raisonnement plus approfondi pour trouver la bonne réponse parmi un grand nombre de distracteurs potentiels.
source:Cet ensemble de données combine des questions provenant de plusieurs sources :
- Question originale du MMLU :Une partie de l'ensemble de données provient de l'ensemble de données MMLU d'origine. Nous avons supprimé les questions triviales et ambiguës.
- Sites Web STEM :Sélectionnez soigneusement des questions STEM de haute qualité sur Internet.
- ThéorèmeQA :Problèmes d'annotation humaine de haute qualité qui nécessitent des théorèmes pour être résolus.
- SciBench :Questions scientifiques pour les examens universitaires.
Les données nouvellement ajoutées couvrent les sujets suivants :Les sujets enrichis de questions provenant des sites Web STEM, de TheoremQA et de SciBench comprennent la biologie, les affaires, la chimie, l'informatique, l'économie, l'ingénierie, les mathématiques, la physique et la psychologie.

Par rapport au MMLU original, il existe trois différences principales :

L'ensemble de données MMLU d'origine ne contient que 4 options, et MMLU-Pro l'augmente à 10 options. L’augmentation des options rendra l’évaluation plus réaliste et plus stimulante. Des suppositions aléatoires donneront lieu à un score beaucoup plus bas.
L'ensemble de données MMLU original contient principalement des questions axées sur les connaissances qui ne nécessitent pas beaucoup de raisonnement. Par conséquent, les résultats du PPL sont généralement meilleurs que ceux du CoT. En augmentant la difficulté des questions et en intégrant davantage de questions axées sur le raisonnement dans MMLU-Pro, le CoT peut être 20% plus élevé que celui du PPL.
En augmentant le nombre de distracteurs, MMLU-Pro réduit considérablement la probabilité de deviner correctement par hasard, améliorant ainsi la robustesse du benchmark. Plus précisément, après avoir testé 24 styles d’invite différents, la sensibilité des scores du modèle aux changements d’invite a diminué de 4-5% dans MMLU à 2% dans MMLU-Pro.

Ensemble De Données De Compréhension Multitâche À Grande Échelle MMLU-Pro

* Cet ensemble de données prend en charge l'utilisation en ligne.Cliquez ici pour sauter.