HyperAIHyperAI

Command Palette

Search for a command to run...

MuLD: Die Multitask-Langdokumenten-Benchmark

G Thomas Hudson Noura Al Moubayed

Zusammenfassung

Der beeindruckende Fortschritt in den Techniken der natürlichsprachlichen Verarbeitung (NLP) wurde durch die Entwicklung von Multi-Task-Benchmarks wie GLUE und SuperGLUE getrieben. Während diese Benchmarks sich auf Aufgaben mit einem oder zwei Eingabesätzen konzentrieren, gab es aufregende Entwicklungen bei der Gestaltung effizienter Techniken zur Verarbeitung viel längeren Eingaben. In dieser Arbeit stellen wir MuLD vor: einen neuen Benchmark für lange Dokumente, der ausschließlich Dokumente mit mehr als 10.000 Token umfasst. Durch die Modifizierung bestehender NLP-Aufgaben schaffen wir ein vielfältiges Benchmark, das von Modellen erfordert, dass sie langfristige Abhängigkeiten im Text erfolgreich modellieren können. Wir evaluieren, wie gut existierende Modelle abschneiden, und stellen fest, dass unser Benchmark viel anspruchsvoller ist als ihre „kurzdokument“-Äquivalente. Darüber hinaus zeigen wir durch die Bewertung sowohl regulärer als auch effizienter Transformer-Modelle, dass Modelle mit verlängerter Kontextlänge besser in der Lage sind, die vorgestellten Aufgaben zu lösen. Dies deutet darauf hin, dass zukünftige Verbesserungen dieser Modelle entscheidend sind, um ähnliche Probleme bei langen Dokumenten zu bewältigen. Wir veröffentlichen die Daten und den Code für Baselines, um weitere Forschung an effizienten NLP-Modellen zu fördern.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp