Funnel-Transformer: Filtern sequenzieller Redundanz für eine effiziente Sprachverarbeitung

Mit dem Erfolg der Sprachvortrainierung ist es äußerst wünschenswert, effizientere Architekturen mit guter Skalierbarkeit zu entwickeln, die die reichlich vorhandenen ungelabelten Daten kostengünstiger nutzen können. Um die Effizienz zu steigern, untersuchen wir die stark unterschätzte Redundanz bei der Aufrechterhaltung einer vollständigen tokenbasierten Darstellung, insbesondere für Aufgaben, die lediglich eine einzelne Vektorrepräsentation der gesamten Sequenz erfordern. Aufgrund dieser Erkenntnis schlagen wir den Funnel-Transformer vor, der die Folge von versteckten Zuständen schrittweise komprimiert, wodurch sich die Rechenkosten reduzieren. Wichtiger noch: Durch die Wiederverwendung der durch die Längenreduktion freigewordenen FLOPs zur Schaffung eines tieferen oder breiteren Modells erhöhen wir zudem die Modellkapazität. Darüber hinaus ermöglicht der Funnel-Transformer, durch einen Decoder aus der komprimierten versteckten Sequenz eine tiefe Repräsentation für jeden Token wiederherzustellen, sodass tokenbasierte Vorhersagen – wie sie bei gängigen Vortrainingszielen gefordert werden – möglich sind. Empirisch übertrifft der Funnel-Transformer bei einer vergleichbaren oder geringeren Anzahl an FLOPs den herkömmlichen Transformer bei einer Vielzahl von sequenzbasierten Vorhersageaufgaben, darunter Textklassifikation, Sprachverständnis und Leseverständnis. Der Quellcode und vortrainierte Checkpoints sind unter https://github.com/laiguokun/Funnel-Transformer verfügbar.