Das Lernen, die mittleren Schichten von Transformatoren zu überspringen

Bedingte Berechnung ist eine weit verbreitete Strategie, um Transformer effizienter zu gestalten. Bestehende Methoden richten sich oft auf einzelne Module (z.B. Mischung-von-Experten-Schichten) oder überspringen Schichten unabhängig voneinander. Interpretationsforschungen haben jedoch gezeigt, dass die mittleren Schichten von Transformer-Modellen eine größere Redundanz aufweisen und dass frühe Schichten Informationen in Tokenpositionen aggregieren. Gestützt auf diese Erkenntnisse schlagen wir eine neuartige Architektur vor, die dynamisch eine variable Anzahl von Schichten von der Mitte nach außen überspringt. Insbesondere bestimmt ein gelerntes Gating-Mechanismus, ob ein symmetrischer Bereich zentraler Blöcke basierend auf der Eingabe übersprungen werden soll, und ein geregelter Aufmerksamkeitsmechanismus verhindert, dass nachfolgende Tokens auf übersprungene Tokenpositionen achten. Residuale Normen werden mit einem 'Sandwich'- oder 'PeriLayerNorm'-Schema kontrolliert und Gate-Dünnheit durch einen adaptiven Regularisierungsverlust gesteuert. Unser Ziel war es, die Rechenanforderungen für 'einfachere' Tokens zu reduzieren und potentiell eine emergente mehrstufige Repräsentationshierarchie zu fördern; bei den untersuchten Größenordnungen erreicht unser Ansatz jedoch keine Verbesserungen im Trade-off zwischen Validierungskreuzentropie und geschätzten FLOPs im Vergleich zu dichteren Baselines mit weniger Schichten. Wir stellen unseren Code unter https://github.com/tim-lawson/skip-middle zur Verfügung.