HyperAIHyperAI

Command Palette

Search for a command to run...

Wenn Aufmerksamkeit auf schnelle Rekurrenz trifft: Training von Sprachmodellen mit reduziertem Rechenaufwand

Tao Lei

Zusammenfassung

Große Sprachmodelle sind aufgrund wachsender Rechenzeit und -kosten zunehmend schwerer zu trainieren. In dieser Arbeit stellen wir SRU++ vor, eine hoch-effiziente Architektur, die schnelle Rekurrenz und Aufmerksamkeit für die Sequenzmodellierung kombiniert. SRU++ zeichnet sich durch eine starke Modellierungskapazität und hohe Trainingseffizienz aus. Auf Standard-Aufgaben der Sprachmodellierung wie den Datensätzen Enwik8, Wiki-103 und Billion Word erreicht unser Modell eine bessere Bits pro Zeichen und Perplexität, während es 3- bis 10-fach geringere Trainingskosten im Vergleich zu führenden Transformer-Modellen aufweist. Beispielsweise erzielt unser Modell auf dem Enwik8-Datensatz eine state-of-the-art-Leistung mit nur 1,6 Tagen Training auf einer 8-GPU-Plattform. Wir zeigen zudem, dass SRU++ nur minimale Aufmerksamkeit benötigt, um nahezu state-of-the-art-Ergebnisse zu erzielen. Unsere Ergebnisse deuten darauf hin, dass die gleichzeitige Nutzung schneller Rekurrenz mit geringem Aufmerksamkeitsaufwand eine vielversprechende Richtung für die Beschleunigung von Modell-Training und Inferenz darstellt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Wenn Aufmerksamkeit auf schnelle Rekurrenz trifft: Training von Sprachmodellen mit reduziertem Rechenaufwand | Paper | HyperAI