Diesen Datensatz verwenden Auf Discord diskutieren

Datum

vor 5 Monaten

Organisation

Paper-URL

2602.03587

Lizenz

Other

Tags

LLM

Textgenerierung

Benchmarks

CL-bench ist ein Benchmark-Datensatz zur Evaluierung der Kontextlernfähigkeiten eines großen Sprachmodells. Er wurde 2026 vom Hunyuan-Team von Tencent in Zusammenarbeit mit der Fudan-Universität veröffentlicht. Die zugehörigen Forschungsarbeiten sind folgende: CL-bench: Ein Benchmark für KontextlernenZiel ist es zu testen, ob ein Modell neue Regeln, Konzepte oder Domänenwissen aus einem gegebenen Kontext lernen kann, ohne auf vortrainiertes Wissen zurückzugreifen, und diese auf nachfolgende Aufgaben anwenden kann. Dieser Datensatz umfasst 500 komplexe Kontextszenarien mit 1.899 spezifischen Aufgaben und bietet 31.607 detaillierte Bewertungsraster. Jede Aufgabe ist als mehrstufiger Dialog gestaltet und deckt verschiedene Kontextlernszenarien ab, wie z. B. Regelschlussfolgerung, Wissenserwerb und das Verständnis komplexer Anweisungen. Ziel ist die Bewertung der Fähigkeit des Modells, neue Informationen im Kontext zu verstehen, zusammenzufassen und anzuwenden.

Dieser Datensatz wurde von Community-Nutzern beigesteuert und dient ausschließlich Bildungs- und Informationszwecken. Falls Inhalte eine Urheberrechtsverletzung darstellen, kontaktieren Sie uns bitte unter [email protected] zur umgehenden Prüfung und Entfernung.

Zugehörige Datensätze

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

Diesen Datensatz verwenden Auf Discord diskutieren

Datum

vor 5 Monaten

Organisation

Paper-URL

2602.03587

Lizenz

Other

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

CL-bench Context Learning Evaluation Benchmark-Datensatz

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

CL-bench Context Learning Evaluation Benchmark-Datensatz

Zugehörige Datensätze

DRACO Cross-Domain Deep Research Benchmark-Datensatz

Nemotron Personas Frankreich (Französischer Datensatz Synthetischer Personas)

Groundsource Global Flood Events Dataset

CHIMERA Allgemeines Inferenz-Synthetik-Datensatz

Open-RL Inferenzproblem-Datensatz

Pan-Cancer scRNA-Seq Cancer Single-Cell Transcriptional Atlas Dataset

RubricHub_v1 Multi-Domain Generative Task Dataset

Nemotron-Personas-Brazil Brasilianischer Datensatz Für Synthetische Charaktere

RoVid-X-Roboter-Videogenerierungsdatensatz

Google StreetView Nationaler Straßenansicht-Bilddatensatz

DeepPlanning-Datensatz Zur Bewertung Der Langfristigen Planungsfähigkeit

Fahrzeuge OpenImages Fahrzeugbilddatensatz

LightOnOCR-mix-0126 Texttranskriptionsdatensatz

Nemotron-Math-v2 Datensatz Für Mathematische Inferenz

Datensatz Menschlicher Gesichtsausdrücke

GroundingME-Datensatz Zur Evaluierung Des Verständnisses Komplexer Szenen

MCIF Multimodal Cross-Language Instruction Following Dataset

Datensatz Zur Röntgen-Schmuggelware-Erkennung

LongBench-Pro Long Context Comprehensive Evaluation Dataset

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

CL-bench Context Learning Evaluation Benchmark-Datensatz

Zugehörige Datensätze

DRACO Cross-Domain Deep Research Benchmark-Datensatz

Nemotron Personas Frankreich (Französischer Datensatz Synthetischer Personas)

Groundsource Global Flood Events Dataset

CHIMERA Allgemeines Inferenz-Synthetik-Datensatz

Open-RL Inferenzproblem-Datensatz

Pan-Cancer scRNA-Seq Cancer Single-Cell Transcriptional Atlas Dataset

RubricHub_v1 Multi-Domain Generative Task Dataset

Nemotron-Personas-Brazil Brasilianischer Datensatz Für Synthetische Charaktere

RoVid-X-Roboter-Videogenerierungsdatensatz

Google StreetView Nationaler Straßenansicht-Bilddatensatz

DeepPlanning-Datensatz Zur Bewertung Der Langfristigen Planungsfähigkeit

Fahrzeuge OpenImages Fahrzeugbilddatensatz

LightOnOCR-mix-0126 Texttranskriptionsdatensatz

Nemotron-Math-v2 Datensatz Für Mathematische Inferenz

Datensatz Menschlicher Gesichtsausdrücke

GroundingME-Datensatz Zur Evaluierung Des Verständnisses Komplexer Szenen

MCIF Multimodal Cross-Language Instruction Following Dataset

Datensatz Zur Röntgen-Schmuggelware-Erkennung

LongBench-Pro Long Context Comprehensive Evaluation Dataset

KI mit KI entwickeln

HyperAI Newsletters

Zugehörige Datensätze

DRACO Cross-Domain Deep Research Benchmark-Datensatz

Nemotron Personas Frankreich (Französischer Datensatz Synthetischer Personas)

Groundsource Global Flood Events Dataset

CHIMERA Allgemeines Inferenz-Synthetik-Datensatz

Open-RL Inferenzproblem-Datensatz

Pan-Cancer scRNA-Seq Cancer Single-Cell Transcriptional Atlas Dataset

RubricHub_v1 Multi-Domain Generative Task Dataset

Nemotron-Personas-Brazil Brasilianischer Datensatz Für Synthetische Charaktere

RoVid-X-Roboter-Videogenerierungsdatensatz

Google StreetView Nationaler Straßenansicht-Bilddatensatz

DeepPlanning-Datensatz Zur Bewertung Der Langfristigen Planungsfähigkeit

Fahrzeuge OpenImages Fahrzeugbilddatensatz

LightOnOCR-mix-0126 Texttranskriptionsdatensatz

Nemotron-Math-v2 Datensatz Für Mathematische Inferenz

Datensatz Menschlicher Gesichtsausdrücke

GroundingME-Datensatz Zur Evaluierung Des Verständnisses Komplexer Szenen

MCIF Multimodal Cross-Language Instruction Following Dataset

Datensatz Zur Röntgen-Schmuggelware-Erkennung

LongBench-Pro Long Context Comprehensive Evaluation Dataset

Zugehörige Datensätze

DRACO Cross-Domain Deep Research Benchmark-Datensatz

Nemotron Personas Frankreich (Französischer Datensatz Synthetischer Personas)

Groundsource Global Flood Events Dataset

CHIMERA Allgemeines Inferenz-Synthetik-Datensatz

Open-RL Inferenzproblem-Datensatz

Pan-Cancer scRNA-Seq Cancer Single-Cell Transcriptional Atlas Dataset

RubricHub_v1 Multi-Domain Generative Task Dataset