vor 11 Tagen

Untersuchung effizienter Erweiterung von Transformers für die Zusammenfassung langer Eingaben

Jason Phang, Yao Zhao, Peter J. Liu

Abstract

Obwohl große vortrainierte Transformer-Modelle sich bei der Bewältigung natürlicher Sprachaufgaben als äußerst leistungsfähig erwiesen haben, bleibt die Verarbeitung langer Eingabesequenzen weiterhin eine bedeutende Herausforderung. Eine solche Aufgabe ist die Zusammenfassung langer Eingaben, bei denen die Eingaben länger sind als der maximale Eingabekontext der meisten vortrainierten Modelle. Anhand einer umfassenden Reihe von Experimenten untersuchen wir, welche Veränderungen im Modellarchitektur-Design und welche Vortrainingsparadigmen die effizienteste Anpassung eines vortrainierten Transformers für die Zusammenfassung langer Eingaben ermöglichen. Wir stellen fest, dass ein gestaffelter, blocklokaler Transformer mit globalen Encoder-Token ein gutes Gleichgewicht zwischen Leistungsfähigkeit und Effizienz bietet, und dass eine zusätzliche Vortrainingsphase auf langen Sequenzen die Leistung bei nachfolgenden Zusammenfassungsaufgaben signifikant verbessert. Auf Basis dieser Erkenntnisse stellen wir PEGASUS-X vor, eine Erweiterung des PEGASUS-Modells mit zusätzlicher Vortrainingsphase auf langen Eingaben, die Eingaben bis zu 16.000 Tokens verarbeiten kann. PEGASUS-X erreicht bei Aufgaben zur Zusammenfassung langer Eingaben starke Ergebnisse, die mit viel größeren Modellen vergleichbar sind, wobei lediglich wenige zusätzliche Parameter hinzugefügt werden und keine Modellparallelität zur Trainingszeit erforderlich ist.