HyperAIHyperAI

Command Palette

Search for a command to run...

Das Lernen, die mittleren Schichten von Transformatoren zu überspringen

Tim Lawson Laurence Aitchison

Zusammenfassung

Bedingte Berechnung ist eine weit verbreitete Strategie, um Transformer effizienter zu gestalten. Bestehende Methoden richten sich oft auf einzelne Module (z.B. Mischung-von-Experten-Schichten) oder überspringen Schichten unabhängig voneinander. Interpretationsforschungen haben jedoch gezeigt, dass die mittleren Schichten von Transformer-Modellen eine größere Redundanz aufweisen und dass frühe Schichten Informationen in Tokenpositionen aggregieren. Gestützt auf diese Erkenntnisse schlagen wir eine neuartige Architektur vor, die dynamisch eine variable Anzahl von Schichten von der Mitte nach außen überspringt. Insbesondere bestimmt ein gelerntes Gating-Mechanismus, ob ein symmetrischer Bereich zentraler Blöcke basierend auf der Eingabe übersprungen werden soll, und ein geregelter Aufmerksamkeitsmechanismus verhindert, dass nachfolgende Tokens auf übersprungene Tokenpositionen achten. Residuale Normen werden mit einem 'Sandwich'- oder 'PeriLayerNorm'-Schema kontrolliert und Gate-Dünnheit durch einen adaptiven Regularisierungsverlust gesteuert. Unser Ziel war es, die Rechenanforderungen für 'einfachere' Tokens zu reduzieren und potentiell eine emergente mehrstufige Repräsentationshierarchie zu fördern; bei den untersuchten Größenordnungen erreicht unser Ansatz jedoch keine Verbesserungen im Trade-off zwischen Validierungskreuzentropie und geschätzten FLOPs im Vergleich zu dichteren Baselines mit weniger Schichten. Wir stellen unseren Code unter https://github.com/tim-lawson/skip-middle zur Verfügung.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Das Lernen, die mittleren Schichten von Transformatoren zu überspringen | Paper | HyperAI