vor 2 Monaten

MuLD: Die Multitask-Langdokumenten-Benchmark

G Thomas Hudson; Noura Al Moubayed

Abstract

Der beeindruckende Fortschritt in den Techniken der natürlichsprachlichen Verarbeitung (NLP) wurde durch die Entwicklung von Multi-Task-Benchmarks wie GLUE und SuperGLUE getrieben. Während diese Benchmarks sich auf Aufgaben mit einem oder zwei Eingabesätzen konzentrieren, gab es aufregende Entwicklungen bei der Gestaltung effizienter Techniken zur Verarbeitung viel längeren Eingaben. In dieser Arbeit stellen wir MuLD vor: einen neuen Benchmark für lange Dokumente, der ausschließlich Dokumente mit mehr als 10.000 Token umfasst. Durch die Modifizierung bestehender NLP-Aufgaben schaffen wir ein vielfältiges Benchmark, das von Modellen erfordert, dass sie langfristige Abhängigkeiten im Text erfolgreich modellieren können. Wir evaluieren, wie gut existierende Modelle abschneiden, und stellen fest, dass unser Benchmark viel anspruchsvoller ist als ihre „kurzdokument“-Äquivalente. Darüber hinaus zeigen wir durch die Bewertung sowohl regulärer als auch effizienter Transformer-Modelle, dass Modelle mit verlängerter Kontextlänge besser in der Lage sind, die vorgestellten Aufgaben zu lösen. Dies deutet darauf hin, dass zukünftige Verbesserungen dieser Modelle entscheidend sind, um ähnliche Probleme bei langen Dokumenten zu bewältigen. Wir veröffentlichen die Daten und den Code für Baselines, um weitere Forschung an effizienten NLP-Modellen zu fördern.