vor 8 Stunden

Shihan Dou Ming Zhang Zhangyue Yin Chenhao Huang Yujiong Shen Junzhe Wang Jiayi Chen Yuchen Ni Junjie Ye Cheng Zhang

Zusammenfassung

Aktuelle Sprachmodelle (LMs) zeichnen sich durch eine ausgezeichnete Fähigkeit zum Schlussfolgern auf Basis von Eingabeprompten unter Nutzung vortrainierter Wissensbestände aus. In der Praxis sind jedoch Aufgaben weitaus komplexer und stark kontextabhängig: Die Modelle müssen aus aufgabenbezogenen Kontexten lernen und zusätzliches Wissen nutzen, das über das während des Vortrainings erlernte hinausgeht, um Aufgaben zu bearbeiten und zu lösen. Wir bezeichnen diese Fähigkeit als Kontextlernen – eine entscheidende Kompetenz, die Menschen natürlich besitzen, jedoch bisher weitgehend übersehen wurde. Um dies zu adressieren, führen wir CL-bench ein, eine realitätsnahe Benchmark, die aus 500 komplexen Kontexten, 1.899 Aufgaben und 31.607 Überprüfungsrichtlinien besteht, alle von erfahrenen Fachexperten erstellt. Jede Aufgabe ist so konzipiert, dass der zur Lösung erforderliche neue Inhalt im jeweiligen Kontext enthalten ist. Die Lösung der Aufgaben in CL-bench erfordert von Modellen, aus dem Kontext zu lernen – sei es neuartiges, fachspezifisches Wissen, Regelwerke, komplexe Verfahren oder aus empirischen Daten abgeleitete Gesetzmäßigkeiten – alles Dinge, die im Vortrainingsphase fehlen. Dies geht weit über Lang-Kontext-Aufgaben hinaus, die primär die Informationsabruf- oder Leseverständnisfähigkeit testen, und auch über In-Context-Lernen, bei dem Modelle einfache Aufgabenmuster über Anweisungen und Beispiele erlernen. Unsere Evaluierung von zehn führenden Sprachmodellen zeigt, dass die Modelle im Durchschnitt nur 17,2 % der Aufgaben lösen. Selbst das bestperformende Modell, GPT-5.1, erreicht lediglich 23,7 %, was belegt, dass Sprachmodelle noch nicht über ein effektives Kontextlernen verfügen – ein kritischer Engpass bei der Bewältigung realitätsnaher, komplexer und kontextabhängiger Aufgaben. CL-bench markiert einen entscheidenden Schritt hin zu Sprachmodellen mit dieser grundlegenden Fähigkeit, wodurch diese intelligenter werden und ihre Anwendung in realen Szenarien weiter vorangetrieben werden kann.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Stunden

LLM

Intelligente Fragebeantwortung

Dokumentenverstehen

Ansatz/Rahmenwerk

Natürliche Sprachverarbeitung

Aufgabe

Shihan Dou Ming Zhang Zhangyue Yin Chenhao Huang Yujiong Shen Junzhe Wang Jiayi Chen Yuchen Ni Junjie Ye Cheng Zhang

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Stunden

LLM

Intelligente Fragebeantwortung

Dokumentenverstehen

Ansatz/Rahmenwerk

Natürliche Sprachverarbeitung

Aufgabe

Shihan Dou Ming Zhang Zhangyue Yin Chenhao Huang Yujiong Shen Junzhe Wang Jiayi Chen Yuchen Ni Junjie Ye Cheng Zhang

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

CL-bench: Ein Benchmark für Kontextlernen

Shihan Dou Ming Zhang Zhangyue Yin Chenhao Huang Yujiong Shen Junzhe Wang Jiayi Chen Yuchen Ni Junjie Ye Cheng Zhang17 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

CL-bench: Ein Benchmark für Kontextlernen

Shihan Dou Ming Zhang Zhangyue Yin Chenhao Huang Yujiong Shen Junzhe Wang Jiayi Chen Yuchen Ni Junjie Ye Cheng Zhang17 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

CL-bench: Ein Benchmark für Kontextlernen

Shihan Dou Ming Zhang Zhangyue Yin Chenhao Huang Yujiong Shen Junzhe Wang Jiayi Chen Yuchen Ni Junjie Ye Cheng Zhang17 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Shihan Dou Ming Zhang Zhangyue Yin Chenhao Huang Yujiong Shen Junzhe Wang Jiayi Chen Yuchen Ni Junjie Ye Cheng Zhang

Shihan Dou Ming Zhang Zhangyue Yin Chenhao Huang Yujiong Shen Junzhe Wang Jiayi Chen Yuchen Ni Junjie Ye Cheng Zhang

Shihan Dou Ming Zhang Zhangyue Yin Chenhao Huang Yujiong Shen Junzhe Wang Jiayi Chen Yuchen Ni Junjie Ye Cheng Zhang