MMLU-Pro-Datensatz Zum Verständnis Großer Multitasking-Aufgaben
Datum
vor 8 Monaten
Größe
3.48 MB
Veröffentlichungs-URL
Kategorien
* Dieser Datensatz unterstützt die Online-Nutzung.Klicken Sie hier, um zu springen.
Der MMLU-Pro-Datensatz ist ein leistungsfähigerer und anspruchsvollerer Datensatz zum Verständnis mehrerer Aufgaben im großen Maßstab, der für ein strengeres Benchmarking der Fähigkeiten großer Sprachmodelle konzipiert wurde. Der Datensatz enthält 12.000 komplexe Fragen aus verschiedenen Disziplinen. Dieser Datensatz wurde 2024 von Forschern der University of Waterloo, der University of Toronto und der Carnegie Mellon University veröffentlicht. Das zugehörige Papier trägt den Titel „MMLU-Pro: Ein robusterer und anspruchsvollerer Benchmark für das Sprachverständnis bei mehreren Aufgaben".
- Fragen und Optionen:Jede Frage im Datensatz verfügt normalerweise über 10 Multiple-Choice-Optionen, aber während des manuellen Überprüfungsprozesses wurden einige Optionen reduziert, um unangemessene Optionen zu eliminieren. Jede Frage hatte ursprünglich vier Optionen und die zusätzlichen Optionen sollen die Komplexität und Robustheit erhöhen, was ein tieferes Denken erfordert, um unter einer großen Anzahl potenzieller Ablenkungen die richtige Antwort zu finden.
- Quelle:Dieser Datensatz kombiniert Fragen aus mehreren Quellen:
- Ursprüngliche MMLU-Frage:Ein Teil des Datensatzes stammt aus dem ursprünglichen MMLU-Datensatz. Wir haben triviale und mehrdeutige Fragen entfernt.
- MINT-Websites:Wählen Sie sorgfältig hochwertige MINT-Fragen aus dem Internet aus.
- TheoremQA:Hochwertige menschliche Annotationsprobleme, die zur Lösung Theoreme erfordern.
- WissenschaftBench:Naturwissenschaftliche Fragen für Universitätsprüfungen.
- Neu hinzugefügte Daten decken folgende Themen ab:Zu den Themen, die mit Fragen von MINT-Websites, TheoremQA und SciBench erweitert wurden, gehören Biologie, Wirtschaft, Chemie, Informatik, Wirtschaftswissenschaften, Ingenieurwesen, Mathematik, Physik und Psychologie.
Im Vergleich zum ursprünglichen MMLU gibt es drei Hauptunterschiede:
- Der ursprüngliche MMLU-Datensatz enthält nur 4 Optionen und MMLU-Pro erhöht ihn auf 10 Optionen. Durch die größeren Auswahlmöglichkeiten wird die Bewertung realistischer und anspruchsvoller. Zufälliges Raten führt zu einer deutlich niedrigeren Punktzahl.
- Der ursprüngliche MMLU-Datensatz enthält hauptsächlich wissensbasierte Fragen, die nicht viel logisches Denken erfordern. Daher sind die PPL-Ergebnisse normalerweise besser als die CoT-Ergebnisse. Durch die Erhöhung des Schwierigkeitsgrades der Fragen und die Integration von mehr auf das logische Denken ausgerichteten Fragen in MMLU-Pro kann der CoT um 20% höher sein als der von PPL.
- Durch die Erhöhung der Anzahl der Ablenker verringert MMLU-Pro die Wahrscheinlichkeit, zufällig richtig zu raten, erheblich und verbessert so die Robustheit des Benchmarks. Insbesondere verringerte sich nach dem Testen von 24 verschiedenen Eingabeaufforderungsstilen die Empfindlichkeit der Modellwerte gegenüber Eingabeaufforderungsänderungen von 4-5% in MMLU auf 2% in MMLU-Pro.
MMLU-Pro.torrent
Seeding 1Herunterladen 1Abgeschlossen 99Gesamtdownloads 311