Die Hypothese der Informationspfade: Transformers sind dynamische Self-Ensembles

Transformers nutzen die dichte Selbst-Attention-Mechanismen, die eine hohe Flexibilität für langreichweitige Verbindungen bieten. Bei mehreren Schichten eines tiefen Transformers wächst die Anzahl möglicher Verbindungsmuster exponentiell. Allerdings tragen nur wenige dieser Muster zur Leistung des Netzwerks bei, und noch weniger sind entscheidend. Wir vermuten, dass innerhalb eines Transformers sparsam verbundene Unter-Netzwerke existieren, sogenannte Informationspfade, die unabhängig voneinander trainiert werden können. Aufgrund ihrer dynamischen (d. h. eingabebhängigen) Natur ist jedoch die Pruning-Strategie bei dichten Selbst-Attention-Mechanismen während des Trainings schwierig. Die Gesamtverteilung dieser Pfade ist jedoch oft vorhersagbar. Wir nutzen diese Eigenschaft, um Stochastically Subsampled Self-Attention (SSA) vorzustellen – eine allgemein anwendbare Trainingsstrategie für Transformers, die sowohl den Speicherbedarf als auch die Rechenkosten der Selbst-Attention während des Trainings um das Vier- bis Achtfache reduziert und gleichzeitig als Regularisierungsmethode fungiert, wodurch die Generalisierungsfähigkeit gegenüber dem dichten Training verbessert wird. Wir zeigen, dass sich aus den abgetasteten Pfaden innerhalb eines Netzwerks eine Ensemble-Untermodellbildung ermöglicht, die eine bessere Leistung als ihr dicht verbundener Gegenpart erzielt. Wir führen Experimente auf einer Vielzahl von Aufgaben aus den Bereichen NLP, Computer Vision und Graph-Learning in sowohl generativen als auch diskriminativen Szenarien durch, um empirische Belege für unsere Behauptungen zu liefern und die Wirksamkeit des vorgeschlagenen Ansatzes zu belegen.