HyperAIHyperAI

Command Palette

Search for a command to run...

CL-bench: Ein Benchmark für Kontextlernen

Zusammenfassung

Aktuelle Sprachmodelle (LMs) zeichnen sich durch eine ausgezeichnete Fähigkeit zum Schlussfolgern auf Basis von Eingabeprompten unter Nutzung vortrainierter Wissensbestände aus. In der Praxis sind jedoch Aufgaben weitaus komplexer und stark kontextabhängig: Die Modelle müssen aus aufgabenbezogenen Kontexten lernen und zusätzliches Wissen nutzen, das über das während des Vortrainings erlernte hinausgeht, um Aufgaben zu bearbeiten und zu lösen. Wir bezeichnen diese Fähigkeit als Kontextlernen – eine entscheidende Kompetenz, die Menschen natürlich besitzen, jedoch bisher weitgehend übersehen wurde. Um dies zu adressieren, führen wir CL-bench ein, eine realitätsnahe Benchmark, die aus 500 komplexen Kontexten, 1.899 Aufgaben und 31.607 Überprüfungsrichtlinien besteht, alle von erfahrenen Fachexperten erstellt. Jede Aufgabe ist so konzipiert, dass der zur Lösung erforderliche neue Inhalt im jeweiligen Kontext enthalten ist. Die Lösung der Aufgaben in CL-bench erfordert von Modellen, aus dem Kontext zu lernen – sei es neuartiges, fachspezifisches Wissen, Regelwerke, komplexe Verfahren oder aus empirischen Daten abgeleitete Gesetzmäßigkeiten – alles Dinge, die im Vortrainingsphase fehlen. Dies geht weit über Lang-Kontext-Aufgaben hinaus, die primär die Informationsabruf- oder Leseverständnisfähigkeit testen, und auch über In-Context-Lernen, bei dem Modelle einfache Aufgabenmuster über Anweisungen und Beispiele erlernen. Unsere Evaluierung von zehn führenden Sprachmodellen zeigt, dass die Modelle im Durchschnitt nur 17,2 % der Aufgaben lösen. Selbst das bestperformende Modell, GPT-5.1, erreicht lediglich 23,7 %, was belegt, dass Sprachmodelle noch nicht über ein effektives Kontextlernen verfügen – ein kritischer Engpass bei der Bewältigung realitätsnaher, komplexer und kontextabhängiger Aufgaben. CL-bench markiert einen entscheidenden Schritt hin zu Sprachmodellen mit dieser grundlegenden Fähigkeit, wodurch diese intelligenter werden und ihre Anwendung in realen Szenarien weiter vorangetrieben werden kann.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp