HyperAIHyperAI

Command Palette

Search for a command to run...

LongT5: Effizienter Text-zu-Text-Transformer für lange Sequenzen

Mandy Guo Joshua Ainslie David Uthus Santiago Ontanon Jianmo Ni Yun-Hsuan Sung Yinfei Yang

Zusammenfassung

Neuere Arbeiten haben gezeigt, dass entweder (1) die Verlängerung der Eingabefolge oder (2) die Erhöhung der Modellgröße die Leistung von Transformer-basierten neuronalen Modellen verbessern kann. In diesem Paper stellen wir ein neues Modell namens LongT5 vor, mit dem wir die Auswirkungen der gleichzeitigen Skalierung sowohl der Eingabefolgenlänge als auch der Modellgröße untersuchen. Konkret integrieren wir Aufmerksamkeitsansätze aus Transformer-Modellen für lange Eingaben (ETC) und übernehmen Präsentierungstraining-Strategien aus der Zusammenfassungsprätrainierung (PEGASUS) in die skalierbare T5-Architektur. Das Ergebnis ist eine neue Aufmerksamkeitsmechanik, die wir {\em Transient Global} (TGlobal) nennen, die die lokale/global-Aufmerksamkeitsmechanik von ETC nachahmt, jedoch keine zusätzlichen Nebeneingaben erfordert. Mit diesem Ansatz erreichen wir state-of-the-art-Ergebnisse auf mehreren Zusammenfassungsaufgaben und übertreffen die ursprünglichen T5-Modelle bei Fragebeantwortungsaufgaben.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
LongT5: Effizienter Text-zu-Text-Transformer für lange Sequenzen | Paper | HyperAI