HyperAIHyperAI

Command Palette

Search for a command to run...

Das Training rechenoptimaler großer Sprachmodelle

Zusammenfassung

Wir untersuchen die optimale Modellgröße und die Anzahl der Tokens für das Training eines Transformer-Sprachmodells unter einer gegebenen Rechenkapazität. Wir stellen fest, dass aktuelle große Sprachmodelle erheblich untertrainiert sind, was eine Folge des jüngsten Fokus auf das Skalieren von Sprachmodellen ist, während die Menge an Trainingsdaten konstant gehalten wird. Durch das Training von über 400 Sprachmodellen mit einer Parameteranzahl von 70 Millionen bis über 16 Milliarden auf 5 bis 500 Milliarden Tokens finden wir heraus, dass für rechenkapazitätsoptimales Training die Modellgröße und die Anzahl der Trainings-Tokens gleichmäßig skaliert werden sollten: Bei jeder Verdopplung der Modellgröße sollte auch die Anzahl der Trainings-Tokens verdoppelt werden. Wir testen diese Hypothese, indem wir ein vorhergesagtes rechenkapazitätsoptimales Modell, Chinchilla, trainieren, das den gleichen Rechenaufwand wie Gopher verwendet, aber 70 Milliarden Parameter und viermal so viele Daten besitzt. Chinchilla übertrifft Gopher (280 Milliarden), GPT-3 (175 Milliarden), Jurassic-1 (178 Milliarden) und Megatron-Turing NLG (530 Milliarden) einheitlich und signifikant in einem breiten Spektrum an Downstream-Evaluationsaufgaben. Dies bedeutet auch, dass Chinchilla erheblich weniger Rechenaufwand für das Feinjustierung und die Inferenz benötigt, was die Downstream-Nutzung stark erleichtert. Als Highlight erreicht Chinchilla einen neuerlichen Stand der Technik mit einem durchschnittlichen Genauigkeitswert von 67,5 % im MMLU-Benchmark, was eine Verbesserung um mehr als 7 % gegenüber Gopher darstellt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp