HyperAIHyperAI
vor 17 Tagen

Reduzierung der Transformer-Tiefe auf Anforderung mit strukturiertem Dropout

Angela Fan, Edouard Grave, Armand Joulin
Reduzierung der Transformer-Tiefe auf Anforderung mit strukturiertem Dropout
Abstract

Überparametrisierte Transformer-Netzwerke haben in verschiedenen Aufgaben des natürlichen Sprachverstehens, wie maschinellem Übersetzen, Sprachmodellierung und Fragebeantwortung, Ergebnisse auf State-of-the-Art-Niveau erzielt. Diese Modelle verfügen über Hunderte Millionen Parameter, was einen erheblichen Rechenaufwand erfordert und sie anfällig für Überanpassung macht. In dieser Arbeit untersuchen wir LayerDrop, eine Form strukturierter Dropout-Technik, die während des Trainings eine Regularisierungswirkung entfaltet und eine effiziente Pruning-Operation zur Inferenzzeit ermöglicht. Insbesondere zeigen wir, dass es möglich ist, Unternetze beliebiger Tiefe aus einem einzigen großen Netzwerk auszuwählen, ohne diese anschließend feinabzustimmen, und dabei nur geringen Einfluss auf die Leistung zu haben. Wir belegen die Wirksamkeit unseres Ansatzes durch Verbesserungen gegenüber dem aktuellen Stand der Technik bei Aufgaben des maschinellen Übersetzens, der Sprachmodellierung, der Zusammenfassung, der Fragebeantwortung und Sprachverständnis-Benchmarks. Darüber hinaus zeigen wir, dass unser Ansatz qualitativ hochwertigere, BERT-ähnliche Modelle kleinerer Größe liefert als das Training von Grund auf oder die Verwendung von Distillation.