HyperAIHyperAI
vor 2 Monaten

Skalierung von instructions-finetunten Sprachmodellen

Hyung Won Chung; Le Hou; Shayne Longpre; Barret Zoph; Yi Tay; William Fedus; Yunxuan Li; Xuezhi Wang; Mostafa Dehghani; Siddhartha Brahma; Albert Webson; Shixiang Shane Gu; Zhuyun Dai; Mirac Suzgun; Xinyun Chen; Aakanksha Chowdhery; Alex Castro-Ros; Marie Pellat; Kevin Robinson; Dasha Valter; Sharan Narang; Gaurav Mishra; Adams Yu; Vincent Zhao; Yanping Huang; Andrew Dai; Hongkun Yu; Slav Petrov; Ed H. Chi; Jeff Dean; Jacob Devlin; Adam Roberts; Denny Zhou; Quoc V. Le; Jason Wei
Skalierung von instructions-finetunten Sprachmodellen
Abstract

Das Feinjustieren von Sprachmodellen anhand einer Sammlung von Datensätzen, die als Anweisungen formuliert sind, hat sich als Methode erwiesen, die die Leistung und die Generalisierungsfähigkeit der Modelle auf unbekannte Aufgaben verbessert. In dieser Arbeit untersuchen wir das Anweisungsfeinjustieren mit besonderem Fokus auf (1) die Skalierung der Anzahl der Aufgaben, (2) die Skalierung der Modellgröße und (3) das Feinjustieren anhand von Kette-von-Gedanken-Daten (Chain-of-Thought Data). Wir stellen fest, dass das Anweisungsfeinjustieren in den genannten Aspekten die Leistung erheblich steigert, sowohl bei verschiedenen Modellklassen (PaLM, T5, U-PaLM), Prompt-Setups (Zero-Shot, Few-Shot, CoT) als auch bei Bewertungsbenchmarktests (MMLU, BBH, TyDiQA, MGSM, offene Generierung). Zum Beispiel übertrifft Flan-PaLM 540B, das auf 1.800 Aufgaben feingewendet wurde, PALM 540B um einen großen Vorsprung (+9,4% im Durchschnitt). Flan-PaLM 540B erreicht Spitzenleistungen bei mehreren Benchmarktests, wie zum Beispiel 75,2% bei Five-Shot-MMLU. Wir veröffentlichen zudem öffentlich die Checkpoints von Flan-T5, die starke Few-Shot-Leistungen erzielen und dies sogar vergleichbar großer Modelle wie PaLM 62B sind. Insgesamt ist das Anweisungsfeinjustieren eine allgemeine Methode zur Verbesserung der Leistung und Benutzerfreundlichkeit vorgeprägter Sprachmodelle.

Skalierung von instructions-finetunten Sprachmodellen | Neueste Forschungsarbeiten | HyperAI