HyperAIHyperAI

Command Palette

Search for a command to run...

Funnel-Transformer: Filtern sequenzieller Redundanz für eine effiziente Sprachverarbeitung

Zihang Dai Guokun Lai Yiming Yang Quoc V. Le

Zusammenfassung

Mit dem Erfolg der Sprachvortrainierung ist es äußerst wünschenswert, effizientere Architekturen mit guter Skalierbarkeit zu entwickeln, die die reichlich vorhandenen ungelabelten Daten kostengünstiger nutzen können. Um die Effizienz zu steigern, untersuchen wir die stark unterschätzte Redundanz bei der Aufrechterhaltung einer vollständigen tokenbasierten Darstellung, insbesondere für Aufgaben, die lediglich eine einzelne Vektorrepräsentation der gesamten Sequenz erfordern. Aufgrund dieser Erkenntnis schlagen wir den Funnel-Transformer vor, der die Folge von versteckten Zuständen schrittweise komprimiert, wodurch sich die Rechenkosten reduzieren. Wichtiger noch: Durch die Wiederverwendung der durch die Längenreduktion freigewordenen FLOPs zur Schaffung eines tieferen oder breiteren Modells erhöhen wir zudem die Modellkapazität. Darüber hinaus ermöglicht der Funnel-Transformer, durch einen Decoder aus der komprimierten versteckten Sequenz eine tiefe Repräsentation für jeden Token wiederherzustellen, sodass tokenbasierte Vorhersagen – wie sie bei gängigen Vortrainingszielen gefordert werden – möglich sind. Empirisch übertrifft der Funnel-Transformer bei einer vergleichbaren oder geringeren Anzahl an FLOPs den herkömmlichen Transformer bei einer Vielzahl von sequenzbasierten Vorhersageaufgaben, darunter Textklassifikation, Sprachverständnis und Leseverständnis. Der Quellcode und vortrainierte Checkpoints sind unter https://github.com/laiguokun/Funnel-Transformer verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Funnel-Transformer: Filtern sequenzieller Redundanz für eine effiziente Sprachverarbeitung | Paper | HyperAI