HyperAIHyperAI

Command Palette

Search for a command to run...

Lehren zur Parameterweiterung über Schichten in Transformers

Sho Takase Shun Kiyono

Zusammenfassung

Wir stellen eine Methode zum Parameter-Sharing für Transformers (Vaswani et al., 2017) vor. Der vorgeschlagene Ansatz lockert eine weit verbreitete Technik, bei der Parameter einer Schicht mit allen Schichten geteilt werden, wie beispielsweise bei Universal Transformers (Dehghani et al., 2019), um die Berechnungszeit zu verkürzen. Wir entwickeln drei Strategien zur Zuweisung von Parametern an jede Schicht: Sequence, Cycle und Cycle (rev). Experimentelle Ergebnisse zeigen, dass die vorgeschlagenen Strategien sowohl in Bezug auf die Anzahl der Parameter als auch auf die Berechnungszeit effizient sind. Zudem weisen wir nach, dass diese Strategien auch in Konfigurationen mit großen Mengen an Trainingsdaten, wie beispielsweise in der jüngsten WMT-Wettbewerbssituation, wirksam sind.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Lehren zur Parameterweiterung über Schichten in Transformers | Paper | HyperAI