HyperAIHyperAI

Command Palette

Search for a command to run...

Primer: Effiziente Transformer für die Sprachmodellierung suchen

David R. So Wojciech Mańke Hanxiao Liu Zihang Dai Noam Shazeer Quoc V. Le

Zusammenfassung

Große Transformer-Modelle haben kürzlich wesentliche Fortschritte im Bereich der natürlichen Sprachverarbeitung ermöglicht. Die Trainings- und Inferenzkosten dieser Modelle sind jedoch rasch gestiegen und werden zunehmend unerschwinglich. In diesem Beitrag zielen wir darauf ab, die Kosten von Transformatoren zu senken, indem wir eine effizientere Variante suchen. Im Vergleich zu früheren Ansätzen wird unsere Suche auf einer tieferen Ebene durchgeführt, über den Primitiven, die ein Transformer-TensorFlow-Programm definieren. Wir identifizieren eine Architektur namens Primer, die geringere Trainingskosten als das ursprüngliche Transformer-Modell und andere Varianten für autoregressive Sprachmodelle aufweist. Die Verbesserungen von Primer können hauptsächlich auf zwei einfache Modifikationen zurückgeführt werden: das Quadrieren von ReLU-Aktivierungen und das Hinzufügen einer tiefenweise Faltungsschicht nach jeder Q-, K- und V-Projektion in der Selbstaufmerksamkeit (self-attention).Experimente zeigen, dass Primers Vorteile gegenüber dem Transformer mit steigender Rechenkapazität zunehmen und einem Potenzgesetz folgen, wenn es um die Qualität bei optimalen Modellgrößen geht. Wir verifizieren auch empirisch, dass Primer in verschiedene Codebasen integriert werden kann, um das Training erheblich zu beschleunigen, ohne zusätzliche Anpassungen vorzunehmen. Zum Beispiel verbessert Primer bei einer Parametergröße von 500 Millionen die ursprüngliche T5-Architektur beim C4-autoregressiven Sprachmodellierungstask und reduziert die Trainingskosten um den Faktor 4. Darüber hinaus bedeutet die verringerte Trainingskosten, dass Primer viel weniger Rechenkapazität benötigt, um eine Zielperformance bei Einmalanwendungen zu erreichen. So verwendet Primer bei einer Konfiguration mit 1,9 Milliarden Parametern ähnlich wie GPT-3 XL nur ein Drittel der Trainingsrechenkapazität, um dieselbe Einmalperformance wie der Transformer zu erzielen. Wir stellen unsere Modelle und mehrere Vergleiche in T5 als Open Source zur Verfügung, um die Reproduzierbarkeit zu erleichtern.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp