P-MMEval Mehrsprachiger Multitasking-Benchmark-Datensatz
Datum
Größe
Veröffentlichungs-URL
*Dieser Datensatz unterstützt die Online-Nutzung.Klicken Sie hier, um zu springen.
Der P-MMEval-Datensatz ist ein umfangreicher mehrsprachiger Multitasking-Benchmark-Datensatz, der 2024 vom Tongyi Laboratory der Alibaba Group erstellt wurde und darauf abzielt, die mehrsprachigen Fähigkeiten großer Sprachmodelle (LLMs) umfassend zu bewerten. Die relevanten Papierergebnisse sindP-MMEVAL: Ein paralleler mehrsprachiger Multitasking-Benchmark zur konsistenten Bewertung von LLMs"
Der Datensatz enthält 3 grundlegende Datensätze zur Verarbeitung natürlicher Sprache (NLP) und 5 erweiterte fähigkeitsspezifische Datensätze, die Aufgaben wie Codegenerierung, Wissensverständnis, mathematisches Denken, logisches Denken und Befolgen von Anweisungen abdecken. Durch die Überprüfung der Übersetzungen durch Experten gewährleistet P-MMEval eine konsistente Abdeckung der 10 Sprachen und bietet parallele Beispiele für alle Sprachen. Zu diesen Sprachen gehören Englisch, Chinesisch, Arabisch, Spanisch, Japanisch, Koreanisch, Thailändisch, Französisch, Portugiesisch und Vietnamesisch.