Diesen Datensatz verwenden Auf Discord diskutieren

Datum

vor 10 Monaten

Organisation

Paper-URL

2509.03059

Lizenz

MIT

Tags

Reasoning

Benchmarks

LoongBench ist ein Datensatz zur Bewertung des Schlussfolgerungsverhaltens in mehreren Domänen, der 2025 vom CAMEL-AI-Team veröffentlicht wurde. Die zugehörigen Ergebnisse des Papiers sind „Loong: Synthetisieren Sie lange Gedankenketten im großen Maßstab durch Verifizierer“, dessen Ziel es ist, LLM mit multidisziplinären, überprüfbaren Schulungs- und Bewertungsressourcen auszustatten. Der Datensatz enthält 8.729 Fragen in natürlicher Sprache aus zwölf schlussfolgerungsintensiven Bereichen wie höherer Mathematik, Physik, Chemie, Bioinformatik und Programmierung. Jede Probe enthält nicht nur ausführbaren Code und verifizierte Antworten, sondern auch die Problemstellung, einen detaillierten Denkprozess, die endgültige Lösung sowie Metadaten (Fragen-ID und Domäneninformationen) und Domänenbezeichnungen. Er eignet sich zum Trainieren und Benchmarking domänenübergreifender Denkfähigkeiten.

Dieser Datensatz wurde von Community-Nutzern beigesteuert und dient ausschließlich Bildungs- und Informationszwecken. Falls Inhalte eine Urheberrechtsverletzung darstellen, kontaktieren Sie uns bitte unter [email protected] zur umgehenden Prüfung und Entfernung.

Zugehörige Datensätze

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

Diesen Datensatz verwenden Auf Discord diskutieren

Datum

vor 10 Monaten

Organisation

Paper-URL

2509.03059

Lizenz

MIT

Zugehörige Datensätze

DRACO Cross-Domain Deep Research Benchmark-Datensatz

vor 2 Monaten

ToolACE-Datensatz Für Lerndialoge Mit Komplexen Werkzeugen

vor 3 Monaten

Groundsource Global Flood Events Dataset

vor 4 Monaten

CHIMERA Allgemeines Inferenz-Synthetik-Datensatz

vor 8 Tagen

THINGS-EEG EEG-Datensatz

vor 5 Monaten

THINGS-MEG-Magnetoenzephalographie-Datensatz

vor 5 Monaten

THINGS-fMRI-Datensatz Für Funktionelle Magnetresonanztomographie

vor 5 Monaten

CL-bench Context Learning Evaluation Benchmark-Datensatz

vor 4 Monaten

DeepPlanning-Datensatz Zur Bewertung Der Langfristigen Planungsfähigkeit

vor 5 Monaten

Nemotron-Math-v2 Datensatz Für Mathematische Inferenz

vor 8 Tagen

TxT360-3efforts Multi-Task Inference Dataset

vor 8 Tagen

LongBench-Pro Long Context Comprehensive Evaluation Dataset

vor 8 Tagen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

LoongBench-Benchmark-Datensatz Für Multi-Domain-Reasoning

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

LoongBench-Benchmark-Datensatz Für Multi-Domain-Reasoning

Zugehörige Datensätze

DRACO Cross-Domain Deep Research Benchmark-Datensatz

ToolACE-Datensatz Für Lerndialoge Mit Komplexen Werkzeugen

Groundsource Global Flood Events Dataset

CHIMERA Allgemeines Inferenz-Synthetik-Datensatz

THINGS-EEG EEG-Datensatz

THINGS-MEG-Magnetoenzephalographie-Datensatz

THINGS-fMRI-Datensatz Für Funktionelle Magnetresonanztomographie

CL-bench Context Learning Evaluation Benchmark-Datensatz

DeepPlanning-Datensatz Zur Bewertung Der Langfristigen Planungsfähigkeit

Nemotron-Math-v2 Datensatz Für Mathematische Inferenz

TxT360-3efforts Multi-Task Inference Dataset

LongBench-Pro Long Context Comprehensive Evaluation Dataset

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

LoongBench-Benchmark-Datensatz Für Multi-Domain-Reasoning

Zugehörige Datensätze

DRACO Cross-Domain Deep Research Benchmark-Datensatz

ToolACE-Datensatz Für Lerndialoge Mit Komplexen Werkzeugen

Groundsource Global Flood Events Dataset

CHIMERA Allgemeines Inferenz-Synthetik-Datensatz

THINGS-EEG EEG-Datensatz

THINGS-MEG-Magnetoenzephalographie-Datensatz

THINGS-fMRI-Datensatz Für Funktionelle Magnetresonanztomographie

CL-bench Context Learning Evaluation Benchmark-Datensatz

DeepPlanning-Datensatz Zur Bewertung Der Langfristigen Planungsfähigkeit

Nemotron-Math-v2 Datensatz Für Mathematische Inferenz

TxT360-3efforts Multi-Task Inference Dataset

LongBench-Pro Long Context Comprehensive Evaluation Dataset

KI mit KI entwickeln

HyperAI Newsletters

Zugehörige Datensätze

DRACO Cross-Domain Deep Research Benchmark-Datensatz

ToolACE-Datensatz Für Lerndialoge Mit Komplexen Werkzeugen

Groundsource Global Flood Events Dataset

CHIMERA Allgemeines Inferenz-Synthetik-Datensatz

THINGS-EEG EEG-Datensatz

THINGS-MEG-Magnetoenzephalographie-Datensatz

THINGS-fMRI-Datensatz Für Funktionelle Magnetresonanztomographie

CL-bench Context Learning Evaluation Benchmark-Datensatz

DeepPlanning-Datensatz Zur Bewertung Der Langfristigen Planungsfähigkeit

Nemotron-Math-v2 Datensatz Für Mathematische Inferenz

TxT360-3efforts Multi-Task Inference Dataset

LongBench-Pro Long Context Comprehensive Evaluation Dataset

Zugehörige Datensätze

DRACO Cross-Domain Deep Research Benchmark-Datensatz

ToolACE-Datensatz Für Lerndialoge Mit Komplexen Werkzeugen

Groundsource Global Flood Events Dataset

CHIMERA Allgemeines Inferenz-Synthetik-Datensatz

THINGS-EEG EEG-Datensatz

THINGS-MEG-Magnetoenzephalographie-Datensatz

THINGS-fMRI-Datensatz Für Funktionelle Magnetresonanztomographie

CL-bench Context Learning Evaluation Benchmark-Datensatz

DeepPlanning-Datensatz Zur Bewertung Der Langfristigen Planungsfähigkeit

Nemotron-Math-v2 Datensatz Für Mathematische Inferenz

TxT360-3efforts Multi-Task Inference Dataset

LongBench-Pro Long Context Comprehensive Evaluation Dataset