HyperAIHyperAI

Command Palette

Search for a command to run...

Omni-MATH Benchmark-Datensatz Für Mathematisches Denken

Date

vor einem Jahr

Size

2.41 MB

Organization

Alibaba-Gruppe
Peking-Universität

Paper URL

arxiv.org

* Dieser Datensatz unterstützt die Online-Nutzung.Klicken Sie hier, um zu springen.

Omni-MATH ist ein von der Peking-Universität und Alibaba entwickelter Benchmark-Datensatz für mathematisches Denken auf Olympiaden-Niveau, der die Leistung großer Sprachmodelle (LLMs) bei mathematischen Problemen auf Olympiaden-Niveau bewerten soll. Die relevanten Papierergebnisse sindOmni-MATH: Ein universeller mathematischer Benchmark auf Olympiadenniveau für große Sprachmodelle".

Dieser Datensatz enthält 4.428 sorgfältig manuell annotierte Mathematikaufgaben auf Wettbewerbsniveau, die 33 Unterbereiche und mehr als 10 verschiedene Schwierigkeitsgrade abdecken, vom Vorbereitungsniveau für die Olympiade bis hin zu den wichtigsten Mathematikwettbewerben der Olympiade wie der IMO (International Mathematical Olympiad), der IMC (International Mathematical Contest) und der Putnam Mathematics Competition.

Der Erstellungsprozess von Omni-MATH umfasst das Sammeln von Daten aus globalen Mathematikwettbewerben und deren Überprüfung durch menschliche Anmerkungen, um die hohe Qualität und Vielfalt der Daten sicherzustellen. Während der Erstellung des Datensatzes verwendete das Forschungsteam GPT-4o, um die Fragen zu klassifizieren und in verschiedene mathematische Felder zu unterteilen, um die Leistung des Modells in verschiedenen mathematischen Feldern zu bewerten.

Omni-MATH.torrent
Seeding 1Downloading 0Completed 141Total Downloads 236
  • Omni-MATH/
    • README.md
      1.73 KB
    • README.txt
      3.46 KB
      • data/
        • omnimath.zip
          2.41 MB

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp