Command Palette
Search for a command to run...
Feinabgestimmte Sprachmodelle sind Null-Shot-Lerner
Feinabgestimmte Sprachmodelle sind Null-Shot-Lerner
Jason Wei Maarten Bosma Vincent Y. Zhao Kelvin Guu Adams Wei Yu Brian Lester Nan Du Andrew M. Dai Quoc V. Le
Zusammenfassung
Diese Arbeit untersucht eine einfache Methode zur Verbesserung der Zero-shot-Lernfähigkeit von Sprachmodellen. Wir zeigen, dass Instruction Tuning – das Feintunen von Sprachmodellen auf einer Sammlung von Aufgaben, die mittels Anweisungen beschrieben werden – die Zero-shot-Leistung auf unbekannte Aufgaben erheblich verbessert. Wir nehmen ein vortrainiertes Sprachmodell mit 137 Milliarden Parametern und feintunen es auf über 60 NLP-Aufgaben, die mittels natürlicher Sprache formulierten Anweisungsvorlagen beschrieben sind. Wir evaluieren dieses instruction-tunete Modell, das wir FLAN nennen, auf unbekannten Aufgabentypen. FLAN verbessert die Leistung seines unveränderten Gegenstücks deutlich und übertrifft die Zero-shot-Leistung des 175B-GPT-3-Modells bei 20 von 25 evaluierten Aufgaben. Zudem erreicht FLAN sogar bei ANLI, RTE, BoolQ, AI2-ARC, OpenbookQA und StoryCloze die Few-shot-Leistung von GPT-3 mit großem Abstand. Ablationstudien zeigen, dass die Anzahl der Feintuning-Datensätze, die Modellgröße und die Verwendung natürlicher Sprache in den Anweisungen entscheidend für den Erfolg des Instruction Tuning sind.