HyperAIHyperAI

Command Palette

Search for a command to run...

LoongBench-Benchmark-Datensatz Für Multi-Domain-Reasoning

Use this DatasetDiscuss on Discord

Date

vor 4 Monaten

Organization

CAMEL-AI

Paper URL

2509.03059

License

MIT

LoongBench ist ein Datensatz zur Bewertung des Schlussfolgerungsverhaltens in mehreren Domänen, der 2025 vom CAMEL-AI-Team veröffentlicht wurde. Die zugehörigen Ergebnisse des Papiers sind „Loong: Synthetisieren Sie lange Gedankenketten im großen Maßstab durch Verifizierer“, dessen Ziel es ist, LLM mit multidisziplinären, überprüfbaren Schulungs- und Bewertungsressourcen auszustatten.

Der Datensatz enthält 8.729 Fragen in natürlicher Sprache aus zwölf schlussfolgerungsintensiven Bereichen wie höherer Mathematik, Physik, Chemie, Bioinformatik und Programmierung. Jede Probe enthält nicht nur ausführbaren Code und verifizierte Antworten, sondern auch die Problemstellung, einen detaillierten Denkprozess, die endgültige Lösung sowie Metadaten (Fragen-ID und Domäneninformationen) und Domänenbezeichnungen. Er eignet sich zum Trainieren und Benchmarking domänenübergreifender Denkfähigkeiten.

Datensatzzusammensetzung

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp