Anpassung vortrainierter Text-zu-Text-Modelle für lange Textsequenzen

Wir präsentieren eine empirische Studie zur Anpassung eines bestehenden vortrainierten text-zu-text-Modells für Eingaben mit langen Sequenzen. Durch eine umfassende Untersuchung entlang dreier Achsen des Vortrainingsprozesses – Modellarchitektur, Optimierungsziel und Vortrainingskorpus – schlagen wir ein effektives Rezept vor, um langkontextfähige Modelle aus bestehenden kurzkontextfähigen Modellen zu entwickeln. Konkret ersetzen wir die vollständige Aufmerksamkeit in Transformers durch eine mit Pooling erweiterte blockweise Aufmerksamkeit und trainieren das Modell im Vortraining mit einer maskierten-Teilabschnitt-Vorhersage-Aufgabe, bei der Teilabschnitte variabler Länge verwendet werden. Was das Vortrainingskorpus betrifft, stellen wir fest, dass die Verwendung zufällig zusammengesetzter kurzer Dokumente aus einem großen, offenen Domänen-Korpus eine bessere Leistung erzielt als die Verwendung bestehender Korpora mit langen Dokumenten, die typischerweise durch eine begrenzte Domänenabdeckung eingeschränkt sind. Auf Basis dieser Erkenntnisse entwickeln wir ein langkontextfähiges Modell, das auf Aufgaben zur Fragebeantwortung mit langen Texten konkurrenzfähige Ergebnisse erzielt und auf fünf Datensätzen zur Zusammenfassung langer Texte die neue State-of-the-Art-Leistung erreicht – häufig sogar besser als frühere Ansätze mit deutlich größeren Modellgrößen. Unser Code ist unter https://github.com/facebookresearch/bart_ls veröffentlicht.