HyperAIHyperAI

Command Palette

Search for a command to run...

LoongBench-Benchmark-Datensatz Für Multi-Domain-Reasoning

Datum

vor 2 Monaten

Organisation

CAMEL-AI

Paper-URL

2509.03059

Lizenz

MIT

Treten Sie der Discord-Community bei

*Dieser Datensatz unterstützt die Online-Nutzung.Klicken Sie hier, um zu springen.

LoongBench ist ein Datensatz zur Bewertung des Schlussfolgerungsverhaltens in mehreren Domänen, der 2025 vom CAMEL-AI-Team veröffentlicht wurde. Die zugehörigen Ergebnisse des Papiers sind „Loong: Synthetisieren Sie lange Gedankenketten im großen Maßstab durch Verifizierer“, dessen Ziel es ist, LLM mit multidisziplinären, überprüfbaren Schulungs- und Bewertungsressourcen auszustatten.

Der Datensatz enthält 8.729 Fragen in natürlicher Sprache aus zwölf schlussfolgerungsintensiven Bereichen wie höherer Mathematik, Physik, Chemie, Bioinformatik und Programmierung. Jede Probe enthält nicht nur ausführbaren Code und verifizierte Antworten, sondern auch die Problemstellung, einen detaillierten Denkprozess, die endgültige Lösung sowie Metadaten (Fragen-ID und Domäneninformationen) und Domänenbezeichnungen. Er eignet sich zum Trainieren und Benchmarking domänenübergreifender Denkfähigkeiten.

Datensatzzusammensetzung

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
LoongBench-Benchmark-Datensatz Für Multi-Domain-Reasoning | Datensätze | HyperAI