Die Grenzen des Transferlearnings mit einem vereinheitlichten Text-zu-Text-Transformer erforschen

Das Transfer-Lernen, bei dem ein Modell zunächst an einem datenreichen Aufgabe vorab trainiert wird, bevor es für eine nachgelagerte Aufgabe feinjustiert wird, hat sich als eine mächtige Technik im Bereich der natürlichsprachlichen Verarbeitung (NLP) etabliert. Die Effektivität des Transfer-Lernens hat zu einer Vielzahl von Ansätzen, Methodiken und Praktiken geführt. In dieser Arbeit untersuchen wir das Spektrum der Transfer-Lernmethoden für NLP durch die Einführung eines einheitlichen Rahmens, der alle textbasierten Sprachaufgaben in ein Text-zu-Text-Format umwandelt. Unsere systematische Studie vergleicht Vorabtrainierungsziele, Architekturen, nicht gekennzeichnete Datensätze, Transferansätze und andere Faktoren anhand von Dutzenden Sprachverstehensaufgaben. Durch die Kombination der Erkenntnisse aus unserer Untersuchung mit Skalierung und unserem neuen „Colossal Clean Crawled Corpus“ erzielen wir Spitzenwerte auf vielen Benchmarks, die Zusammenfassung, Fragebeantwortung, Textklassifizierung und mehr abdecken. Um zukünftige Arbeiten zum Transfer-Lernen in der NLP zu fördern, stellen wir unseren Datensatz, unsere vorab trainierten Modelle und unser Code zur Verfügung.