Command Palette
Search for a command to run...
P-MMEval Mehrsprachiger Multitasking-Benchmark-Datensatz
Datum
Größe
Paper-URL
*Dieser Datensatz unterstützt die Online-Nutzung.Klicken Sie hier, um zu springen.
Der P-MMEval-Datensatz ist ein umfangreicher mehrsprachiger Multitasking-Benchmark-Datensatz, der 2024 vom Tongyi Laboratory der Alibaba Group erstellt wurde und darauf abzielt, die mehrsprachigen Fähigkeiten großer Sprachmodelle (LLMs) umfassend zu bewerten. Die relevanten Papierergebnisse sindP-MMEVAL: Ein paralleler mehrsprachiger Multitasking-Benchmark zur konsistenten Bewertung von LLMs"
Der Datensatz enthält 3 grundlegende Datensätze zur Verarbeitung natürlicher Sprache (NLP) und 5 erweiterte fähigkeitsspezifische Datensätze, die Aufgaben wie Codegenerierung, Wissensverständnis, mathematisches Denken, logisches Denken und Befolgen von Anweisungen abdecken. Durch die Überprüfung der Übersetzungen durch Experten gewährleistet P-MMEval eine konsistente Abdeckung der 10 Sprachen und bietet parallele Beispiele für alle Sprachen. Zu diesen Sprachen gehören Englisch, Chinesisch, Arabisch, Spanisch, Japanisch, Koreanisch, Thailändisch, Französisch, Portugiesisch und Vietnamesisch.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.