HyperAI

Massives Multi-Task-Sprachverständnis (MMLU)

Massive Multi-task Language Understanding (MMLU) ist eine umfassende Bewertung.Ziel ist es, die Multitasking-Genauigkeit von Textmodellen durch die Auswertung von Modellen in Zero-Shot- und Few-Shot-Einstellungen zu messen. Verwandte Artikel und ErgebnisseMESSUNG DES MASSIVEN MULTITASK-SPRACHVERSTÄNDS" wurde 2021 vorgeschlagen und im ICLR 2021 veröffentlicht.

MMLU bietet eine Möglichkeit, verschiedene Sprachmodelle wie OpenAI GPT-4, Mistral 7b, Google Gemini und Anthropic Claude 2 zu testen und zu vergleichen. Es umfasst 57 Aufgaben, die von grundlegender Mathematik über US-Geschichte bis hin zu Informatik und Recht reichen und von den Modellen verlangen, ihre breite Wissensbasis und Problemlösungsfähigkeiten unter Beweis zu stellen.

Wichtige Details des MMLU-Benchmarks

  • Trainings- und Validierungssätze: Der Datensatz enthält 15.908 Fragen, aufgeteilt in einen Entwicklungssatz mit wenigen Beispielen, einen Validierungssatz und einen Testsatz. Das Few-Shot-Entwicklungsset umfasst 5 Fragen pro Thema, das Validierungsset kann zur Auswahl von Hyperparametern verwendet werden und besteht aus 1540 Fragen und das Testset umfasst 14.079 Fragen.
  • Modellleistung: Vorläufige Ergebnisse von MMLU zeigen, dass das kleinere LLM hinsichtlich der Genauigkeit auf einem zufälligen Niveau abschneidet (25%-Genauigkeit), während das größere GPT-3 (175 Milliarden Parameter) mit 43,9%-Genauigkeit bei wenigen Schüssen und 37,7%-Genauigkeit bei null Schüssen eine bessere Leistung erbringt. Bis 2023 erreichte GPT-4 eine 5-Schuss-Genauigkeit von 86,4% und Google Gemini eine 5-Schuss-Genauigkeit von 83,7%. Allerdings müssen selbst die besten Modelle noch erheblich verbessert werden, bevor sie die Genauigkeit menschlicher Experten erreichen (89,8%).
  • Anspruchsvolle Themen: Modelle, insbesondere große Sprachmodelle (LLMs), schneiden bei rechenintensiven Aufgaben (wie Physik und Mathematik) und geisteswissenschaftlichen Themen (wie Ethik und Recht) schlecht ab.

Hauptmerkmale des MMLU-Benchmarks

Der MMLU-Benchmark misst die Leistung von Sprachmodellen bei einer Vielzahl von Aufgaben und deckt Disziplinen wie MINT, Geisteswissenschaften und Sozialwissenschaften ab. Zu den wichtigsten Merkmalen des MMLU-Benchmarks gehören:

  • 57 Themen: Der Benchmark umfasst 57 Themen aus einem breiten Spektrum von Bereichen, von der Grundlagenmathematik bis hin zu fortgeschrittenen beruflichen Kenntnissen in Bereichen wie Recht und Ethik.
  • Granularität und Breite: MMLU testet Weltwissen und Problemlösungsfähigkeiten und ist daher ideal geeignet, um das Verständnis eines Modells für eine Vielzahl von Themen zu ermitteln.
  • Multitasking-Genauigkeit: Der Test misst die Multitasking-Genauigkeit des Modells, indem er ein breites Spektrum an Aufgaben abdeckt und so eine umfassende Bewertung des akademischen und beruflichen Wissens des Modells gewährleistet.
  • Keine Notwendigkeit für große Trainingssätze: Im Gegensatz zu einigen anderen Benchmarks erfordert MMLU keinen großen Trainingssatz. Stattdessen wird davon ausgegangen, dass das Modell das erforderliche Wissen bereits durch das Lesen einer großen und vielfältigen Menge an Texten erworben hat. Dieser Prozess wird oft als Vortraining bezeichnet.

Diese Schlüsselfunktionen machen den MMLU-Benchmark zu einem wertvollen Tool zur Bewertung der Leistung von Sprachmodellen und ihrer Fähigkeit, Sprache in einer Vielzahl von Kontexten zu verstehen und zu generieren.

So funktioniert MMLU

Der MMLU-Benchmark funktioniert, indem er die Leistung von Sprachmodellen bei einer Vielzahl von Aufgaben bewertet. Es misst die Fähigkeit eines Modells, Sprache in verschiedenen Kontexten zu verstehen und zu generieren, einschließlich maschineller Übersetzung, Textzusammenfassung und Stimmungsanalyse.

Der endgültige MMLU-Score ist der Durchschnitt der in jeder Aufgabe erzielten Punktzahlen und bietet ein umfassendes Maß für die Gesamtleistung des Modells.

MMLU Vorteile

Der MMLU-Benchmark bietet viele Vorteile. Die drei wichtigsten davon sind:

  1. Es bietet eine quantitative Möglichkeit, die Leistung verschiedener Sprachmodelle zu vergleichen.
  2. Es ist rechnerisch effizient und leicht zu verstehen.
  3. Es berücksichtigt die Fähigkeit des Modells, Sprache in verschiedenen Kontexten zu verstehen und zu generieren und bestimmte Aspekte der Sprachstruktur zu erfassen.

Einschränkungen von MMLU

Der MMLU-Benchmark weist auch einige Probleme auf, die ihn zu einem suboptimalen Benchmark machen:

  1. Der Schlüsselkontext fehlt in der Frage: Bei einigen Fragen im MMLU-Benchmark fehlt der Kontext, sodass es schwierig oder unmöglich ist, sie richtig zu beantworten. Außerdem können diese Fragen auf Kopier- und Einfügefehler zurückzuführen sein.
  2. Unschärfe des Antwortsatzes: Dieser Benchmark enthält Fragen mit mehrdeutigen Antwortsätzen, die zu Verwirrung und einer falschen Bewertung der Modellleistung führen können.
  3. Falscher Antwortsatz: Einige Fragen im MMLU-Benchmark haben falsche Antwortsätze, was zu irreführenden Bewertungsergebnissen führen kann.
  4. Sensibilität für Signale: Die MMLU reagiert äußerst empfindlich auf den genauen verwendeten Hinweis, was dazu führen kann, dass die Leistung je nach Hinweis erheblich variiert.

Verweise

【1】https://klu.ai/glossary/mmlu-eval