HyperAIHyperAI

Command Palette

Search for a command to run...

Anpassung vortrainierter Text-zu-Text-Modelle für lange Textsequenzen

Wenhan Xiong Anchit Gupta Shubham Toshniwal Yashar Mehdad Wen-tau Yih

Zusammenfassung

Wir präsentieren eine empirische Studie zur Anpassung eines bestehenden vortrainierten text-zu-text-Modells für Eingaben mit langen Sequenzen. Durch eine umfassende Untersuchung entlang dreier Achsen des Vortrainingsprozesses – Modellarchitektur, Optimierungsziel und Vortrainingskorpus – schlagen wir ein effektives Rezept vor, um langkontextfähige Modelle aus bestehenden kurzkontextfähigen Modellen zu entwickeln. Konkret ersetzen wir die vollständige Aufmerksamkeit in Transformers durch eine mit Pooling erweiterte blockweise Aufmerksamkeit und trainieren das Modell im Vortraining mit einer maskierten-Teilabschnitt-Vorhersage-Aufgabe, bei der Teilabschnitte variabler Länge verwendet werden. Was das Vortrainingskorpus betrifft, stellen wir fest, dass die Verwendung zufällig zusammengesetzter kurzer Dokumente aus einem großen, offenen Domänen-Korpus eine bessere Leistung erzielt als die Verwendung bestehender Korpora mit langen Dokumenten, die typischerweise durch eine begrenzte Domänenabdeckung eingeschränkt sind. Auf Basis dieser Erkenntnisse entwickeln wir ein langkontextfähiges Modell, das auf Aufgaben zur Fragebeantwortung mit langen Texten konkurrenzfähige Ergebnisse erzielt und auf fünf Datensätzen zur Zusammenfassung langer Texte die neue State-of-the-Art-Leistung erreicht – häufig sogar besser als frühere Ansätze mit deutlich größeren Modellgrößen. Unser Code ist unter https://github.com/facebookresearch/bart_ls veröffentlicht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Anpassung vortrainierter Text-zu-Text-Modelle für lange Textsequenzen | Paper | HyperAI