Speicher-effiziente stochastische Methoden für speicherbasierte Transformer

Das Training von speicherbasierten Transformer-Modellen kann einen großen Speicherverbrauch erfordern und ist oft sehr ineffizient. Wir schlagen ein neues zweiphasiges Trainingsverfahren sowie eine neue Regularisierungstechnik vor, um die Trainings-effizienz von speicherbasierten Transformers zu verbessern, die häufig für Probleme mit langreichweitigem Kontext verwendet werden. Für unsere Experimente verwenden wir den Transformer-XL als Basismodell, das zu den speicherbasierten Transformer-Modellen gehört. Wir zeigen, dass unser resultierendes Modell, der Skip Cross-head TransformerXL, im charakterbasierten Sprachmodellierungsaufgaben das Basismodell bei vergleichbarer Anzahl an Parametern übertrifft und im wortbasierten Sprachmodellierungsaufgaben das Basismodell bei fast 20 % weniger Parametern übertrifft. Unsere vorgeschlagenen Methoden erfordern keinen zusätzlichen Speicher. Darüber hinaus demonstrieren wir die Effektivität unserer Regularisierungsmechanismen am Beispiel von BERT, das bei mehreren GLUE-Aufgaben eine ähnliche Leistung zeigt, wobei die Standardabweichung der Scores um etwa 30 % reduziert wird.