HyperAIHyperAI

Command Palette

Search for a command to run...

Konsole

PolyMath Multilingual Mathematical Reasoning Benchmark Dataset

Datum

vor 4 Tagen

Organisation

Shanghai Jiao Tong Universität

Paper-URL

2504.18428

PolyMath ist ein mehrsprachiger Datensatz zur Evaluierung mathematischer Argumentation, der 2025 vom Qianwen-Team von Alibaba in Zusammenarbeit mit der Shanghai Jiao Tong University veröffentlicht wurde. Die zugehörige Forschungsarbeit trägt den Titel „…“.PolyMath: Bewertung mathematischen Denkens in mehrsprachigen KontextenDie Studie wurde für die NeurIPS 2025 Datasets and Benchmarks ausgewählt, mit dem Ziel, das mathematische Verständnis, die Schlussfolgerungstiefe und die sprachübergreifende Konsistenz großer Sprachmodelle unter mehrsprachigen Bedingungen systematisch zu bewerten.

Dieser Datensatz enthält 500 hochwertige Aufgaben zum mathematischen Denken, aufgeteilt in 125 Aufgaben pro Schwierigkeitsgrad. Er umfasst 18 Sprachen und 4 Schwierigkeitsgrade, darunter 18 parallele Sprachversionen für Sprachen mit hohem und niedrigem Ressourcenaufkommen. Weltweit werden über 751.000 Muttersprachler erreicht. Die Bandbreite der Aufgaben reicht von grundlegender Mathematik der Klassen 1–12 bis hin zu Mathematik-Olympiaden und hochkomplexen Gebieten. Dadurch entsteht ein hochwertiges, vielschichtiges und differenziertes Bewertungssystem für mathematisches Denken.

Verteilung des Datensatzes:

  • Anzahl und Verteilung der Fragen: Jede Sprache bietet 125 Fragen pro Schwierigkeitsgrad, wodurch eine ausgewogene Schwierigkeitszusammensetzung entsteht.
  • Kriterien zur Schwierigkeitsklassifizierung: Unterteilt in vier Stufen basierend auf „Gedankentiefe“ und „Wissensbreite“:
    • Stufe 1: Grundlagen (K–12)
    • Stufe 2: Fortgeschritten (Gymnasium bis Oberstufe)
    • Stufe 3: Hoher Schwierigkeitsgrad (Olympianiveau)
    • Stufe 4: Spitzentechnologie (Höhere Mathematik und wissenschaftliches Denken)

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp