OPT-IML: Skalierung des Meta-Lernens für Sprachmodell-Anweisungen durch die Perspektive der Generalisierung

Neuere Arbeiten haben gezeigt, dass das Feintunen großer vortrainierter Sprachmodelle auf einer Sammlung von Aufgaben, die mittels Anweisungen beschrieben werden – sogenannte Anweisungstuning (instruction-tuning) – – deren Null- und Few-Shot-Verallgemeinerungsfähigkeit für unbekannte Aufgaben verbessert. Allerdings besteht ein begrenztes Verständnis der Leistungsabwägungen verschiedener Entscheidungen, die während des Anweisungstuning-Prozesses getroffen werden. Zu diesen Entscheidungen gehören die Skalierung und Vielfalt des Anweisungstuning-Benchmarks, verschiedene Strategien zur Aufgabenauswahl, das Feintunen mit und ohne Beispiele (demonstrations), die Verwendung spezialisierter Datensätze für Schlussfolgerung und Dialog sowie schließlich die Zielsetzungen des Feintunings selbst. In diesem Paper charakterisieren wir den Einfluss von Anweisungstuning-Entscheidungen auf die Leistung bei nachgeschalteten Aufgaben, wobei sowohl die Modellgröße als auch die Benchmark-Größe skaliert werden. Dazu erstellen wir OPT-IML Bench: einen großen Benchmark für Instruction Meta-Learning (IML) mit 2000 NLP-Aufgaben, die aus 8 bestehenden Benchmarks in Aufgabenkategorien zusammengefasst wurden, und entwickeln einen Evaluierungsrahmen, um drei Arten der Modellverallgemeinerung zu messen: Aufgaben aus vollständig ausgeschlossenen Kategorien, ausgeschlossene Aufgaben aus bekannten Kategorien und ausgeschlossene Instanzen aus bekannten Aufgaben. Anhand dieses Rahmens präsentieren wir zunächst Erkenntnisse über Anweisungstuning-Entscheidungen im Kontext von OPT-30B und nutzen diese Erkenntnisse, um OPT-IML 30B und 175B zu trainieren, die instruktionsgetunten Versionen von OPT darstellen. OPT-IML zeigt bei beiden Skalen alle drei Verallgemeinerungsfähigkeiten auf vier unterschiedlichen Evaluierungsbenchmarks mit vielfältigen Aufgaben und Eingabformaten – PromptSource, FLAN, Super-NaturalInstructions und UnifiedSKG. Es übertrifft nicht nur OPT signifikant auf allen Benchmarks, sondern ist auch hoch konkurrenzfähig gegenüber bestehenden Modellen, die jeweils auf einzelnen Benchmarks feinabgestimmt wurden. Wir veröffentlichen OPT-IML in beiden Größenklassen sowie den zugehörigen Evaluierungsrahmen OPT-IML Bench.