HyperAIHyperAI
vor 2 Monaten

Das Training rechenoptimaler großer Sprachmodelle

Jordan Hoffmann; Sebastian Borgeaud; Arthur Mensch; Elena Buchatskaya; Trevor Cai; Eliza Rutherford; Diego de Las Casas; Lisa Anne Hendricks; Johannes Welbl; Aidan Clark; Tom Hennigan; Eric Noland; Katie Millican; George van den Driessche; Bogdan Damoc; Aurelia Guy; Simon Osindero; Karen Simonyan; Erich Elsen; Jack W. Rae; Oriol Vinyals; Laurent Sifre
Das Training rechenoptimaler großer Sprachmodelle
Abstract

Wir untersuchen die optimale Modellgröße und die Anzahl der Tokens für das Training eines Transformer-Sprachmodells unter einer gegebenen Rechenkapazität. Wir stellen fest, dass aktuelle große Sprachmodelle erheblich untertrainiert sind, was eine Folge des jüngsten Fokus auf das Skalieren von Sprachmodellen ist, während die Menge an Trainingsdaten konstant gehalten wird. Durch das Training von über 400 Sprachmodellen mit einer Parameteranzahl von 70 Millionen bis über 16 Milliarden auf 5 bis 500 Milliarden Tokens finden wir heraus, dass für rechenkapazitätsoptimales Training die Modellgröße und die Anzahl der Trainings-Tokens gleichmäßig skaliert werden sollten: Bei jeder Verdopplung der Modellgröße sollte auch die Anzahl der Trainings-Tokens verdoppelt werden. Wir testen diese Hypothese, indem wir ein vorhergesagtes rechenkapazitätsoptimales Modell, Chinchilla, trainieren, das den gleichen Rechenaufwand wie Gopher verwendet, aber 70 Milliarden Parameter und viermal so viele Daten besitzt. Chinchilla übertrifft Gopher (280 Milliarden), GPT-3 (175 Milliarden), Jurassic-1 (178 Milliarden) und Megatron-Turing NLG (530 Milliarden) einheitlich und signifikant in einem breiten Spektrum an Downstream-Evaluationsaufgaben. Dies bedeutet auch, dass Chinchilla erheblich weniger Rechenaufwand für das Feinjustierung und die Inferenz benötigt, was die Downstream-Nutzung stark erleichtert. Als Highlight erreicht Chinchilla einen neuerlichen Stand der Technik mit einem durchschnittlichen Genauigkeitswert von 67,5 % im MMLU-Benchmark, was eine Verbesserung um mehr als 7 % gegenüber Gopher darstellt.

Das Training rechenoptimaler großer Sprachmodelle | Neueste Forschungsarbeiten | HyperAI