HyperAIHyperAI

Command Palette

Search for a command to run...

VORBEREITUNG: Ein Benchmark, der globales Verständnis und Schlussfolgerung über lange Kontexte erfordert

Zusammenfassung

Wir stellen PRELUDE vor, einen Benchmark zur Bewertung der Verständnisfähigkeit für lange Kontexte, der auf der Aufgabe basiert, zu prüfen, ob die Vorgeschichte einer Figur mit der kanonischen Erzählung des ursprünglichen Buches konsistent ist. Im Gegensatz zu bestehenden Benchmarks stellt diese Aufgabe höhere Anforderungen an die globale Wahrnehmung und tiefgehende Schlussfolgerung – da die Vorgeschichten nicht Teil der ursprünglichen Geschichte sind, erfordert die Beurteilung ihrer Plausibilität typischerweise die Suche nach und Integration von Informationen, die nur indirekt relevant sind. Empirisch erfordern 88 % der Instanzen Beweise aus mehreren Teilen der Erzählung. Experimentelle Ergebnisse verdeutlichen die Schwierigkeit der Aufgabe: In-Context-Lernen, RAG sowie in-domain-Trainings mit modernsten großen Sprachmodellen und kommerzielle DeepResearch-Dienste erreichen menschliche Leistung um mehr als 15 % hinterher. Eine zusätzliche menschliche Studie zeigt, dass Modelle häufig korrekte Antworten mit fehlerhafter Argumentation liefern, was zu einer Differenz von über 30 % bei der Argumentationsgenauigkeit gegenüber Menschen führt. Diese Ergebnisse unterstreichen den erheblichen Verbesserungsbedarf bei der Verarbeitung und Schlussfolgerung in langen Kontexten.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
VORBEREITUNG: Ein Benchmark, der globales Verständnis und Schlussfolgerung über lange Kontexte erfordert | Paper | HyperAI