HyperAIHyperAI

Command Palette

Search for a command to run...

ProcessBench-Benchmark-Datensatz Für Mathematisches Denken

Datum

vor einem Jahr

Größe

1.92 MB

Organisation

Alibaba-Gruppe

Paper-URL

arxiv.org

ProcessBench ist ein Benchmark-Datensatz, der sich auf die Identifizierung von Fehlern im mathematischen Denken konzentriert. Ziel ist es, die Fähigkeit von Sprachmodellen zu messen, falsche Schritte beim mathematischen Denken zu erkennen. Es wurde 2024 vom Qwen-Team der Alibaba Group eingeführt. Die zugehörigen Ergebnisse des Papiers lauten:ProcessBench: Prozessfehler beim mathematischen Denken identifizieren".

Dieser Datensatz enthält 3,4.000 Testbeispiele, wobei der Schwerpunkt auf mathematischen Problemen mit Wettbewerbs- und Olympia-Schwierigkeit liegt. Jedes Beispiel enthält eine Schritt-für-Schritt-Lösung und eine präzise Fehlermarkierung durch Fachexperten. Beim Erstellen dieses Datensatzes wählte das Forschungsteam Fragen aus mehreren öffentlichen Datenquellen aus, verwendete verschiedene Open-Source-Sprachmodelle zur Generierung von Antworten und ließ die Daten schließlich von Experten überprüfen, um hohe Qualitätsstandards sicherzustellen.

Beispieldaten für PROCESSBENCH. Die Bezeichnung 2 gibt an, dass der älteste Fehler bei Schritt 2 aufgetreten ist (indexiert beginnend bei 0). Für Testfälle ohne Fehler ist das Label -1.
ProcessBench.torrent
Seeding 2Wird heruntergeladen 0Abgeschlossen 114Gesamtdownloads 192
  • ProcessBench/
    • README.md
      1.58 KB
    • README.txt
      3.15 KB
      • data/
        • ProcessBench.zip
          1.92 MB

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp