HyperAIHyperAI

Command Palette

Search for a command to run...

OPT-IML: Skalierung des Meta-Lernens für Sprachmodell-Anweisungen durch die Perspektive der Generalisierung

Zusammenfassung

Neuere Arbeiten haben gezeigt, dass das Feintunen großer vortrainierter Sprachmodelle auf einer Sammlung von Aufgaben, die mittels Anweisungen beschrieben werden – sogenannte Anweisungstuning (instruction-tuning) – – deren Null- und Few-Shot-Verallgemeinerungsfähigkeit für unbekannte Aufgaben verbessert. Allerdings besteht ein begrenztes Verständnis der Leistungsabwägungen verschiedener Entscheidungen, die während des Anweisungstuning-Prozesses getroffen werden. Zu diesen Entscheidungen gehören die Skalierung und Vielfalt des Anweisungstuning-Benchmarks, verschiedene Strategien zur Aufgabenauswahl, das Feintunen mit und ohne Beispiele (demonstrations), die Verwendung spezialisierter Datensätze für Schlussfolgerung und Dialog sowie schließlich die Zielsetzungen des Feintunings selbst. In diesem Paper charakterisieren wir den Einfluss von Anweisungstuning-Entscheidungen auf die Leistung bei nachgeschalteten Aufgaben, wobei sowohl die Modellgröße als auch die Benchmark-Größe skaliert werden. Dazu erstellen wir OPT-IML Bench: einen großen Benchmark für Instruction Meta-Learning (IML) mit 2000 NLP-Aufgaben, die aus 8 bestehenden Benchmarks in Aufgabenkategorien zusammengefasst wurden, und entwickeln einen Evaluierungsrahmen, um drei Arten der Modellverallgemeinerung zu messen: Aufgaben aus vollständig ausgeschlossenen Kategorien, ausgeschlossene Aufgaben aus bekannten Kategorien und ausgeschlossene Instanzen aus bekannten Aufgaben. Anhand dieses Rahmens präsentieren wir zunächst Erkenntnisse über Anweisungstuning-Entscheidungen im Kontext von OPT-30B und nutzen diese Erkenntnisse, um OPT-IML 30B und 175B zu trainieren, die instruktionsgetunten Versionen von OPT darstellen. OPT-IML zeigt bei beiden Skalen alle drei Verallgemeinerungsfähigkeiten auf vier unterschiedlichen Evaluierungsbenchmarks mit vielfältigen Aufgaben und Eingabformaten – PromptSource, FLAN, Super-NaturalInstructions und UnifiedSKG. Es übertrifft nicht nur OPT signifikant auf allen Benchmarks, sondern ist auch hoch konkurrenzfähig gegenüber bestehenden Modellen, die jeweils auf einzelnen Benchmarks feinabgestimmt wurden. Wir veröffentlichen OPT-IML in beiden Größenklassen sowie den zugehörigen Evaluierungsrahmen OPT-IML Bench.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp