HyperAIHyperAI
vor 13 Tagen

Feinabgestimmte Sprachmodelle sind Null-Shot-Lerner

Jason Wei, Maarten Bosma, Vincent Y. Zhao, Kelvin Guu, Adams Wei Yu, Brian Lester, Nan Du, Andrew M. Dai, Quoc V. Le
Feinabgestimmte Sprachmodelle sind Null-Shot-Lerner
Abstract

Diese Arbeit untersucht eine einfache Methode zur Verbesserung der Zero-shot-Lernfähigkeit von Sprachmodellen. Wir zeigen, dass Instruction Tuning – das Feintunen von Sprachmodellen auf einer Sammlung von Aufgaben, die mittels Anweisungen beschrieben werden – die Zero-shot-Leistung auf unbekannte Aufgaben erheblich verbessert. Wir nehmen ein vortrainiertes Sprachmodell mit 137 Milliarden Parametern und feintunen es auf über 60 NLP-Aufgaben, die mittels natürlicher Sprache formulierten Anweisungsvorlagen beschrieben sind. Wir evaluieren dieses instruction-tunete Modell, das wir FLAN nennen, auf unbekannten Aufgabentypen. FLAN verbessert die Leistung seines unveränderten Gegenstücks deutlich und übertrifft die Zero-shot-Leistung des 175B-GPT-3-Modells bei 20 von 25 evaluierten Aufgaben. Zudem erreicht FLAN sogar bei ANLI, RTE, BoolQ, AI2-ARC, OpenbookQA und StoryCloze die Few-shot-Leistung von GPT-3 mit großem Abstand. Ablationstudien zeigen, dass die Anzahl der Feintuning-Datensätze, die Modellgröße und die Verwendung natürlicher Sprache in den Anweisungen entscheidend für den Erfolg des Instruction Tuning sind.

Feinabgestimmte Sprachmodelle sind Null-Shot-Lerner | Neueste Forschungsarbeiten | HyperAI