HyperAIHyperAI

Command Palette

Search for a command to run...

Feinabgestimmte Sprachmodelle sind Null-Shot-Lerner

Jason Wei Maarten Bosma Vincent Y. Zhao Kelvin Guu Adams Wei Yu Brian Lester Nan Du Andrew M. Dai Quoc V. Le

Zusammenfassung

Diese Arbeit untersucht eine einfache Methode zur Verbesserung der Zero-shot-Lernfähigkeit von Sprachmodellen. Wir zeigen, dass Instruction Tuning – das Feintunen von Sprachmodellen auf einer Sammlung von Aufgaben, die mittels Anweisungen beschrieben werden – die Zero-shot-Leistung auf unbekannte Aufgaben erheblich verbessert. Wir nehmen ein vortrainiertes Sprachmodell mit 137 Milliarden Parametern und feintunen es auf über 60 NLP-Aufgaben, die mittels natürlicher Sprache formulierten Anweisungsvorlagen beschrieben sind. Wir evaluieren dieses instruction-tunete Modell, das wir FLAN nennen, auf unbekannten Aufgabentypen. FLAN verbessert die Leistung seines unveränderten Gegenstücks deutlich und übertrifft die Zero-shot-Leistung des 175B-GPT-3-Modells bei 20 von 25 evaluierten Aufgaben. Zudem erreicht FLAN sogar bei ANLI, RTE, BoolQ, AI2-ARC, OpenbookQA und StoryCloze die Few-shot-Leistung von GPT-3 mit großem Abstand. Ablationstudien zeigen, dass die Anzahl der Feintuning-Datensätze, die Modellgröße und die Verwendung natürlicher Sprache in den Anweisungen entscheidend für den Erfolg des Instruction Tuning sind.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp