vor 3 Tagen

VORBEREITUNG: Ein Benchmark, der globales Verständnis und Schlussfolgerung über lange Kontexte erfordert

Mo Yu, Tsz Ting Chung, Chulun Zhou, Tong Li, Rui Lu, Jiangnan Li, Liyan Xu, Haoshu Lu, Ning Zhang, Jing Li, Jie Zhou

Abstract

Wir stellen PRELUDE vor, einen Benchmark zur Bewertung der Verständnisfähigkeit für lange Kontexte, der auf der Aufgabe basiert, zu prüfen, ob die Vorgeschichte einer Figur mit der kanonischen Erzählung des ursprünglichen Buches konsistent ist. Im Gegensatz zu bestehenden Benchmarks stellt diese Aufgabe höhere Anforderungen an die globale Wahrnehmung und tiefgehende Schlussfolgerung – da die Vorgeschichten nicht Teil der ursprünglichen Geschichte sind, erfordert die Beurteilung ihrer Plausibilität typischerweise die Suche nach und Integration von Informationen, die nur indirekt relevant sind. Empirisch erfordern 88 % der Instanzen Beweise aus mehreren Teilen der Erzählung. Experimentelle Ergebnisse verdeutlichen die Schwierigkeit der Aufgabe: In-Context-Lernen, RAG sowie in-domain-Trainings mit modernsten großen Sprachmodellen und kommerzielle DeepResearch-Dienste erreichen menschliche Leistung um mehr als 15 % hinterher. Eine zusätzliche menschliche Studie zeigt, dass Modelle häufig korrekte Antworten mit fehlerhafter Argumentation liefern, was zu einer Differenz von über 30 % bei der Argumentationsgenauigkeit gegenüber Menschen führt. Diese Ergebnisse unterstreichen den erheblichen Verbesserungsbedarf bei der Verarbeitung und Schlussfolgerung in langen Kontexten.