Compréhension Massive Du Langage Multitâche (MMLU)
Massive Multi-task Language Understanding (MMLU) est une évaluation complète.L'objectif est de mesurer la précision multitâche des modèles de texte en évaluant les modèles dans des paramètres à zéro et à quelques prises de vue. Articles et résultats connexesMESURER LA COMPRÉHENSION MASSIVE DU LINGUISTIQUE MULTITÂCHE" a été proposé en 2021 et publié dans l'ICLR 2021.
MMLU offre un moyen de tester et de comparer différents modèles de langage, tels que OpenAI GPT-4, Mistral 7b, Google Gemini et Anthropic Claude 2. Il couvre 57 tâches allant des mathématiques de base à l'histoire des États-Unis en passant par l'informatique et le droit, exigeant des modèles qu'ils démontrent leur large base de connaissances et leurs capacités de résolution de problèmes.
Détails clés de l'indice de référence MMLU
- Ensembles d'entraînement et de validation:L'ensemble de données contient 15 908 questions, divisées en un ensemble de développement à quelques coups, un ensemble de validation et un ensemble de tests. L'ensemble de développement à quelques coups comporte 5 questions par sujet, l'ensemble de validation peut être utilisé pour sélectionner des hyperparamètres et se compose de 1 540 questions, et l'ensemble de test comporte 14 079 questions.
- Performances du modèle:Les résultats préliminaires du MMLU montrent que le plus petit LLM fonctionne à un niveau aléatoire en termes de précision (précision de 25%), tandis que le plus grand GPT-3 (175 milliards de paramètres) fonctionne mieux avec une précision de 43,9% en quelques coups et une précision de 37,7% en zéro coup. D'ici 2023, GPT-4 a atteint une précision de 5 tirs de 86,4%, et Google Gemini a atteint une précision de 5 tirs de 83,7%. Cependant, même les meilleurs modèles nécessitent encore des améliorations substantielles avant d’atteindre le niveau de précision d’un expert humain (89,8%).
- Des sujets difficiles:Les modèles, en particulier les grands modèles de langage (LLM), sont peu performants sur les tâches nécessitant beaucoup de calcul (comme la physique et les mathématiques) et sur les sujets des sciences humaines (comme l'éthique et le droit).
Principales caractéristiques du benchmark MMLU
Le benchmark MMLU mesure les performances des modèles linguistiques sur une variété de tâches, couvrant des disciplines telles que les STEM, les sciences humaines et les sciences sociales. Certaines caractéristiques clés du benchmark MMLU incluent :
- 57 sujets:Le référentiel couvre 57 matières dans un large éventail de domaines, des mathématiques de base aux niveaux professionnels avancés dans des domaines tels que le droit et l'éthique.
- Granularité et ampleur: Le MMLU teste les connaissances du monde et les compétences en résolution de problèmes, ce qui le rend idéal pour identifier la compréhension d'un modèle sur une variété de sujets.
- Précision multitâche:Le test mesure la précision multitâche du modèle en couvrant une gamme diversifiée de tâches, garantissant une évaluation complète des connaissances académiques et professionnelles du modèle.
- Pas besoin de grands ensembles d'entraînement:Contrairement à d’autres benchmarks, MMLU ne nécessite pas un grand ensemble de formation. Au lieu de cela, il suppose que le modèle a déjà acquis les connaissances nécessaires en lisant un ensemble vaste et diversifié de textes, un processus souvent appelé pré-formation.
Ces caractéristiques clés font du benchmark MMLU un outil précieux pour évaluer les performances des modèles linguistiques et leur capacité à comprendre et à générer du langage dans une variété de contextes.
Comment fonctionne MMLU
Le benchmark MMLU fonctionne en évaluant les performances des modèles linguistiques sur une variété de tâches. Il mesure la capacité d’un modèle à comprendre et à générer du langage dans différents contextes, notamment la traduction automatique, la synthèse de texte et l’analyse des sentiments.
Le score MMLU final est la moyenne des scores obtenus dans chaque tâche, fournissant une mesure complète de la performance globale du modèle.
MMLU Avantages
Le benchmark MMLU présente de nombreux avantages, dont les trois plus importants sont :
- Il fournit un moyen quantitatif de comparer les performances de différents modèles de langage.
- Il est efficace sur le plan informatique et facile à comprendre.
- Il prend en compte la capacité du modèle à comprendre et à générer du langage dans divers contextes et peut capturer certains aspects de la structure du langage.
Limites du MMLU
Le benchmark MMLU présente également certains problèmes qui en font un benchmark sous-optimal :
- Le contexte clé est absent de la question:Certaines questions du benchmark MMLU manquent de contexte, ce qui les rend difficiles, voire impossibles, à répondre correctement, et ces questions peuvent être dues à des erreurs de copier-coller.
- Flou dans l'ensemble des réponses:Ce benchmark contient des questions avec des ensembles de réponses ambigus qui peuvent entraîner une confusion et une évaluation incorrecte des performances du modèle.
- Mauvaise réponse définie:Certaines questions du benchmark MMLU ont des ensembles de réponses incorrects, ce qui peut conduire à des résultats d'évaluation trompeurs.
- Sensibilité aux signaux:Le MMLU est extrêmement sensible au signal exact utilisé, ce qui peut entraîner des variations significatives des performances en fonction du signal.
Références