LongT5: Effizienter Text-zu-Text-Transformer für lange Sequenzen

Neuere Arbeiten haben gezeigt, dass entweder (1) die Verlängerung der Eingabefolge oder (2) die Erhöhung der Modellgröße die Leistung von Transformer-basierten neuronalen Modellen verbessern kann. In diesem Paper stellen wir ein neues Modell namens LongT5 vor, mit dem wir die Auswirkungen der gleichzeitigen Skalierung sowohl der Eingabefolgenlänge als auch der Modellgröße untersuchen. Konkret integrieren wir Aufmerksamkeitsansätze aus Transformer-Modellen für lange Eingaben (ETC) und übernehmen Präsentierungstraining-Strategien aus der Zusammenfassungsprätrainierung (PEGASUS) in die skalierbare T5-Architektur. Das Ergebnis ist eine neue Aufmerksamkeitsmechanik, die wir {\em Transient Global} (TGlobal) nennen, die die lokale/global-Aufmerksamkeitsmechanik von ETC nachahmt, jedoch keine zusätzlichen Nebeneingaben erfordert. Mit diesem Ansatz erreichen wir state-of-the-art-Ergebnisse auf mehreren Zusammenfassungsaufgaben und übertreffen die ursprünglichen T5-Modelle bei Fragebeantwortungsaufgaben.