Überwindung von Skalierungsgesetzen mit 0,1 % zusätzlicher Rechenleistung

Das Skalieren von Sprachmodellen verbessert die Leistung, geht aber mit erheblichen Rechenaufwand einher. In dieser Arbeit wird UL2R vorgestellt, eine Methode, die bestehende Sprachmodelle und ihre Skalierungskurven mit einem vergleichsweise geringen zusätzlichen Rechenaufwand erheblich verbessert. Das Kernkonzept besteht darin, ein state-of-the-art großes Sprachmodell (z.B., PaLM) für einige weitere Schritte mit dem Mischungsziel von UL2 weiter zu trainieren. Wir zeigen, dass wir bei fast vernachlässigbaren zusätzlichen Rechenaufwendungen und ohne neue Datenquellen die Skalierungseigenschaften großer Sprachmodelle in nachgelagerten Metriken erheblich verbessern können. In dieser Arbeit führen wir das Weitertrainieren von PaLM mit UL2R durch und stellen neue Modelle in den Größen 8 Mrd., 62 Mrd. und 540 Mrd. Parameter vor, die wir U-PaLM nennen. Beeindruckenderweise erreicht U-PaLM bei einer Größe von 540 Mrd. Parametern eine etwa doppelt so hohe Recheneinsparungsrate wie das endgültige PaLM-Modell mit 540 Mrd. Parametern – es benötigt nur etwa die Hälfte des Rechenbudgets (d.h., Ersparnis von ca. 4,4 Millionen TPUv4-Stunden). Darüber hinaus zeigen wir, dass diese verbesserte Skalierungskurve zu „emergenten Fähigkeiten“ bei anspruchsvollen BIG-Bench-Aufgaben führt – zum Beispiel übertrifft U-PaLM PaLM bei manchen Aufgaben oder zeigt eine bessere Qualität bei viel kleinerer Modellgröße (62 Mrd. anstelle von 540 Mrd.). Insgesamt zeigen wir, dass U-PaLM in vielen Few-Shot-Szenarien besser abschneidet als PaLM, insbesondere bei englischen NLP-Aufgaben (z.B., Alltagsverstand, Fragebeantwortung), Aufgaben mit Gedankenkette (z.B., GSM8K), mehrsprachigen Aufgaben (MGSM, TydiQA), MMLU und anspruchsvollen BIG-Bench-Aufgaben. Abschließend geben wir qualitative Beispiele an, die die neuen Fähigkeiten von U-PaLM beim Ein- und Mehrspan-Füllen verdeutlichen.