HyperAIHyperAI

Command Palette

Search for a command to run...

Untersuchung effizienter Erweiterung von Transformers für die Zusammenfassung langer Eingaben

Jason Phang Yao Zhao Peter J. Liu

Zusammenfassung

Obwohl große vortrainierte Transformer-Modelle sich bei der Bewältigung natürlicher Sprachaufgaben als äußerst leistungsfähig erwiesen haben, bleibt die Verarbeitung langer Eingabesequenzen weiterhin eine bedeutende Herausforderung. Eine solche Aufgabe ist die Zusammenfassung langer Eingaben, bei denen die Eingaben länger sind als der maximale Eingabekontext der meisten vortrainierten Modelle. Anhand einer umfassenden Reihe von Experimenten untersuchen wir, welche Veränderungen im Modellarchitektur-Design und welche Vortrainingsparadigmen die effizienteste Anpassung eines vortrainierten Transformers für die Zusammenfassung langer Eingaben ermöglichen. Wir stellen fest, dass ein gestaffelter, blocklokaler Transformer mit globalen Encoder-Token ein gutes Gleichgewicht zwischen Leistungsfähigkeit und Effizienz bietet, und dass eine zusätzliche Vortrainingsphase auf langen Sequenzen die Leistung bei nachfolgenden Zusammenfassungsaufgaben signifikant verbessert. Auf Basis dieser Erkenntnisse stellen wir PEGASUS-X vor, eine Erweiterung des PEGASUS-Modells mit zusätzlicher Vortrainingsphase auf langen Eingaben, die Eingaben bis zu 16.000 Tokens verarbeiten kann. PEGASUS-X erreicht bei Aufgaben zur Zusammenfassung langer Eingaben starke Ergebnisse, die mit viel größeren Modellen vergleichbar sind, wobei lediglich wenige zusätzliche Parameter hinzugefügt werden und keine Modellparallelität zur Trainingszeit erforderlich ist.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Untersuchung effizienter Erweiterung von Transformers für die Zusammenfassung langer Eingaben | Paper | HyperAI