Skalierung von instructions-finetunten Sprachmodellen

Das Feinjustieren von Sprachmodellen anhand einer Sammlung von Datensätzen, die als Anweisungen formuliert sind, hat sich als Methode erwiesen, die die Leistung und die Generalisierungsfähigkeit der Modelle auf unbekannte Aufgaben verbessert. In dieser Arbeit untersuchen wir das Anweisungsfeinjustieren mit besonderem Fokus auf (1) die Skalierung der Anzahl der Aufgaben, (2) die Skalierung der Modellgröße und (3) das Feinjustieren anhand von Kette-von-Gedanken-Daten (Chain-of-Thought Data). Wir stellen fest, dass das Anweisungsfeinjustieren in den genannten Aspekten die Leistung erheblich steigert, sowohl bei verschiedenen Modellklassen (PaLM, T5, U-PaLM), Prompt-Setups (Zero-Shot, Few-Shot, CoT) als auch bei Bewertungsbenchmarktests (MMLU, BBH, TyDiQA, MGSM, offene Generierung). Zum Beispiel übertrifft Flan-PaLM 540B, das auf 1.800 Aufgaben feingewendet wurde, PALM 540B um einen großen Vorsprung (+9,4% im Durchschnitt). Flan-PaLM 540B erreicht Spitzenleistungen bei mehreren Benchmarktests, wie zum Beispiel 75,2% bei Five-Shot-MMLU. Wir veröffentlichen zudem öffentlich die Checkpoints von Flan-T5, die starke Few-Shot-Leistungen erzielen und dies sogar vergleichbar großer Modelle wie PaLM 62B sind. Insgesamt ist das Anweisungsfeinjustieren eine allgemeine Methode zur Verbesserung der Leistung und Benutzerfreundlichkeit vorgeprägter Sprachmodelle.