UL2: Vereinheitlichende Spracherlernparadigmen

Bestehende vortrainierte Modelle sind in der Regel auf eine bestimmte Klasse von Problemen ausgerichtet. Bislang gibt es noch keinen Konsens darüber, welche Architektur und welches Vortrainings-Szenario das richtige sind. In dieser Arbeit wird ein einheitliches Framework für vortrainierte Modelle präsentiert, die universell effektiv über verschiedene Datensätze und Szenarien hinweg sind. Wir beginnen damit, architektonische Prototypen von Vortrainings-Zielen zu entwirren – zwei Konzepte, die häufig vermischt werden. Anschließend stellen wir eine verallgemeinerte und einheitliche Perspektive für Selbstüberwachung in der NLP vor und zeigen, wie verschiedene Vortrainings-Ziele ineinander umgewandelt werden können und wie das Interpolieren zwischen verschiedenen Zielen effektiv sein kann. Dann schlagen wir Mixture-of-Denoisers (MoD) vor, ein Vortrainings-Ziel, das verschiedene Vortrainings-Paradigmen zusammenführt. Des Weiteren führen wir den Begriff des Moduswechsels ein, bei dem das Downstream-Fine-Tuning mit spezifischen Vortrainings-Schemata verbunden ist. Wir führen umfangreiche ablativistische Experimente durch, um mehrere Vortrainings-Ziele zu vergleichen und feststellen, dass unsere Methode die Pareto-Grenze durch Überlegenheit gegenüber T5-ähnlichen Modellen in verschiedenen Szenarien nach vorn schiebt. Durch Skalierung unseres Modells auf 20 Milliarden Parameter erreichen wir Spitzenleistungen bei 50 etablierten überwachten Fine-Tuning-basierten NLP-Aufgaben. Unser Modell erzielt auch starke Ergebnisse im Kontextlernen und übertrifft das 175-Milliarden-Parameter-Modell GPT-3 im Zero-Shot SuperGLUE sowie verdoppelt die Leistung des T5-XXL im One-Shot Zusammenfassungsaufgaben. Bei Zero-Shot MMLU übertrifft UL2 20B sowohl T0- als auch T5-Modelle. UL2 20B funktioniert zudem gut mit chain-of-thought-Anregungen und -Schlussfolgerungen, was es zu einer attraktiven Wahl für Forschungen zur Schlussfolgerung in einem Klein- bis Mittelmaßstab von 20 Milliarden Parametern macht. Schließlich wenden wir FLAN-Anweisungstuning auf das UL2 20B-Modell an und erreichen dabei MMLU- und Big-Bench-Wertungen, die mit denen des FLAN-PaLM 62B konkurrieren können. Wir veröffentlichen Flax-basierte T5X-Kontrollpunkte für UL2 20B & Flan-UL2 20B.