vor einem Monat

Primer: Effiziente Transformer für die Sprachmodellierung suchen

David R. So; Wojciech Mańke; Hanxiao Liu; Zihang Dai; Noam Shazeer; Quoc V. Le

Abstract

Große Transformer-Modelle haben kürzlich wesentliche Fortschritte im Bereich der natürlichen Sprachverarbeitung ermöglicht. Die Trainings- und Inferenzkosten dieser Modelle sind jedoch rasch gestiegen und werden zunehmend unerschwinglich. In diesem Beitrag zielen wir darauf ab, die Kosten von Transformatoren zu senken, indem wir eine effizientere Variante suchen. Im Vergleich zu früheren Ansätzen wird unsere Suche auf einer tieferen Ebene durchgeführt, über den Primitiven, die ein Transformer-TensorFlow-Programm definieren. Wir identifizieren eine Architektur namens Primer, die geringere Trainingskosten als das ursprüngliche Transformer-Modell und andere Varianten für autoregressive Sprachmodelle aufweist. Die Verbesserungen von Primer können hauptsächlich auf zwei einfache Modifikationen zurückgeführt werden: das Quadrieren von ReLU-Aktivierungen und das Hinzufügen einer tiefenweise Faltungsschicht nach jeder Q-, K- und V-Projektion in der Selbstaufmerksamkeit (self-attention).Experimente zeigen, dass Primers Vorteile gegenüber dem Transformer mit steigender Rechenkapazität zunehmen und einem Potenzgesetz folgen, wenn es um die Qualität bei optimalen Modellgrößen geht. Wir verifizieren auch empirisch, dass Primer in verschiedene Codebasen integriert werden kann, um das Training erheblich zu beschleunigen, ohne zusätzliche Anpassungen vorzunehmen. Zum Beispiel verbessert Primer bei einer Parametergröße von 500 Millionen die ursprüngliche T5-Architektur beim C4-autoregressiven Sprachmodellierungstask und reduziert die Trainingskosten um den Faktor 4. Darüber hinaus bedeutet die verringerte Trainingskosten, dass Primer viel weniger Rechenkapazität benötigt, um eine Zielperformance bei Einmalanwendungen zu erreichen. So verwendet Primer bei einer Konfiguration mit 1,9 Milliarden Parametern ähnlich wie GPT-3 XL nur ein Drittel der Trainingsrechenkapazität, um dieselbe Einmalperformance wie der Transformer zu erzielen. Wir stellen unsere Modelle und mehrere Vergleiche in T5 als Open Source zur Verfügung, um die Reproduzierbarkeit zu erleichtern.