SCROLLS: Standardisierte CompaRison über lange Sprachsequenzen

NLP-Benchmarks haben sich weitgehend auf kurze Texte wie Sätze und Absätze konzentriert, obwohl lange Texte einen erheblichen Teil der natürlichen Sprache in der realen Welt ausmachen. Wir stellen SCROLLS vor, eine Reihe von Aufgaben, die Schlussfolgerungen über lange Texte erfordern. Wir untersuchen bestehende Datensätze für lange Texte und wählen jene sorgfältig aus, bei denen der Text naturgemäß lang ist, wobei wir Aufgaben bevorzugen, die die Synthese von Informationen über den gesamten Eingabetext erfordern. SCROLLS umfasst Aufgaben zum Zusammenfassen, Fragenbeantwortung und natürliche Sprachinferenz und deckt mehrere Domänen ab, darunter Literatur, Wissenschaft, Wirtschaft und Unterhaltung. Erste Baseline-Modelle, darunter Longformer Encoder-Decoder, zeigen, dass auf SCROLLS noch erheblicher Verbesserungsbedarf besteht. Alle Datensätze stellen wir in einem einheitlichen Text-zu-Text-Format bereit und betreiben eine Live-Platzierungsliste, um die Forschung zu Modellarchitekturen und Vortrainingsmethoden zu fördern.