Lehren zur Parameterweiterung über Schichten in Transformers

Wir stellen eine Methode zum Parameter-Sharing für Transformers (Vaswani et al., 2017) vor. Der vorgeschlagene Ansatz lockert eine weit verbreitete Technik, bei der Parameter einer Schicht mit allen Schichten geteilt werden, wie beispielsweise bei Universal Transformers (Dehghani et al., 2019), um die Berechnungszeit zu verkürzen. Wir entwickeln drei Strategien zur Zuweisung von Parametern an jede Schicht: Sequence, Cycle und Cycle (rev). Experimentelle Ergebnisse zeigen, dass die vorgeschlagenen Strategien sowohl in Bezug auf die Anzahl der Parameter als auch auf die Berechnungszeit effizient sind. Zudem weisen wir nach, dass diese Strategien auch in Konfigurationen mit großen Mengen an Trainingsdaten, wie beispielsweise in der jüngsten WMT-Wettbewerbssituation, wirksam sind.