HyperAIHyperAI

Command Palette

Search for a command to run...

Longformer: Der Long-Dokument-Transformer

Iz Beltagy Matthew E. Peters Arman Cohan

Zusammenfassung

Transformer-basierte Modelle sind aufgrund ihres Selbst-Attention-Operations nicht in der Lage, lange Sequenzen zu verarbeiten, da diese quadratisch mit der Sequenzlänge skaliert. Um diese Einschränkung zu überwinden, stellen wir den Longformer vor, dessen Aufmerksamkeitsmechanismus linear mit der Sequenzlänge skaliert und somit die Verarbeitung von Dokumenten mit Tausenden von Token oder länger vereinfacht. Der Aufmerksamkeitsmechanismus des Longformer ist eine direkte Ersetzung für die herkömmliche Selbst-Attention und kombiniert eine lokale fensterbasierte Aufmerksamkeit mit einer auf Aufgaben ausgerichteten globalen Aufmerksamkeit. Anschließend an vorangegangene Arbeiten zu Langsequenz-Transformern evaluieren wir den Longformer auf der Ebene der Zeichen-Level-Sprachmodellierung und erzielen dabei Ergebnisse auf dem Stand der Technik für die Datensätze text8 und enwik8. Im Gegensatz zu den meisten vorangegangenen Arbeiten prätrainieren wir den Longformer zudem und fine-tunen ihn auf einer Vielzahl von Downstream-Aufgaben. Unser prätrainierter Longformer übertrifft konsistent RoBERTa bei Aufgaben mit langen Dokumenten und erreicht neue SOTA-Ergebnisse auf WikiHop und TriviaQA. Schließlich stellen wir den Longformer-Encoder-Decoder (LED) vor, eine Variante des Longformer zur Unterstützung von generativen sequenz-zu-sequenz-Aufgaben mit langen Dokumenten, und demonstrieren dessen Wirksamkeit am Beispiel des arXiv-Zusammenfassungsdatensatzes.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp