Longformer: Der Long-Dokument-Transformer

Transformer-basierte Modelle sind aufgrund ihres Selbst-Attention-Operations nicht in der Lage, lange Sequenzen zu verarbeiten, da diese quadratisch mit der Sequenzlänge skaliert. Um diese Einschränkung zu überwinden, stellen wir den Longformer vor, dessen Aufmerksamkeitsmechanismus linear mit der Sequenzlänge skaliert und somit die Verarbeitung von Dokumenten mit Tausenden von Token oder länger vereinfacht. Der Aufmerksamkeitsmechanismus des Longformer ist eine direkte Ersetzung für die herkömmliche Selbst-Attention und kombiniert eine lokale fensterbasierte Aufmerksamkeit mit einer auf Aufgaben ausgerichteten globalen Aufmerksamkeit. Anschließend an vorangegangene Arbeiten zu Langsequenz-Transformern evaluieren wir den Longformer auf der Ebene der Zeichen-Level-Sprachmodellierung und erzielen dabei Ergebnisse auf dem Stand der Technik für die Datensätze text8 und enwik8. Im Gegensatz zu den meisten vorangegangenen Arbeiten prätrainieren wir den Longformer zudem und fine-tunen ihn auf einer Vielzahl von Downstream-Aufgaben. Unser prätrainierter Longformer übertrifft konsistent RoBERTa bei Aufgaben mit langen Dokumenten und erreicht neue SOTA-Ergebnisse auf WikiHop und TriviaQA. Schließlich stellen wir den Longformer-Encoder-Decoder (LED) vor, eine Variante des Longformer zur Unterstützung von generativen sequenz-zu-sequenz-Aufgaben mit langen Dokumenten, und demonstrieren dessen Wirksamkeit am Beispiel des arXiv-Zusammenfassungsdatensatzes.