HyperAIHyperAI
vor 9 Tagen

Wenn Aufmerksamkeit auf schnelle Rekurrenz trifft: Training von Sprachmodellen mit reduziertem Rechenaufwand

Tao Lei
Wenn Aufmerksamkeit auf schnelle Rekurrenz trifft: Training von Sprachmodellen mit reduziertem Rechenaufwand
Abstract

Große Sprachmodelle sind aufgrund wachsender Rechenzeit und -kosten zunehmend schwerer zu trainieren. In dieser Arbeit stellen wir SRU++ vor, eine hoch-effiziente Architektur, die schnelle Rekurrenz und Aufmerksamkeit für die Sequenzmodellierung kombiniert. SRU++ zeichnet sich durch eine starke Modellierungskapazität und hohe Trainingseffizienz aus. Auf Standard-Aufgaben der Sprachmodellierung wie den Datensätzen Enwik8, Wiki-103 und Billion Word erreicht unser Modell eine bessere Bits pro Zeichen und Perplexität, während es 3- bis 10-fach geringere Trainingskosten im Vergleich zu führenden Transformer-Modellen aufweist. Beispielsweise erzielt unser Modell auf dem Enwik8-Datensatz eine state-of-the-art-Leistung mit nur 1,6 Tagen Training auf einer 8-GPU-Plattform. Wir zeigen zudem, dass SRU++ nur minimale Aufmerksamkeit benötigt, um nahezu state-of-the-art-Ergebnisse zu erzielen. Unsere Ergebnisse deuten darauf hin, dass die gleichzeitige Nutzung schneller Rekurrenz mit geringem Aufmerksamkeitsaufwand eine vielversprechende Richtung für die Beschleunigung von Modell-Training und Inferenz darstellt.

Wenn Aufmerksamkeit auf schnelle Rekurrenz trifft: Training von Sprachmodellen mit reduziertem Rechenaufwand | Neueste Forschungsarbeiten | HyperAI