Verbesserung des Sprachverstehens durch generatives Vortrainieren
Die Verständnis natürlicher Sprache umfasst eine Vielzahl unterschiedlicher Aufgaben wie Textentailment, Fragebeantwortung, semantische Ähnlichkeitsbewertung und Dokumentklassifikation. Obwohl große, nicht annotierte Textkorpora reichlich vorhanden sind, ist annotierte Daten für das Lernen dieser spezifischen Aufgaben begrenzt, was es diskriminativ trainierten Modellen erschwert, ausreichend gut zu performen. Wir zeigen, dass sich erhebliche Verbesserungen bei diesen Aufgaben durch generatives Vortrainieren eines Sprachmodells auf einem vielfältigen Korpus nicht annotierter Texte erreichen lassen, gefolgt von diskriminativer Feinabstimmung auf jeder einzelnen spezifischen Aufgabe. Im Gegensatz zu früheren Ansätzen nutzen wir während der Feinabstimmung aufgabenbewusste Eingabetransformationen, um eine effektive Übertragung zu erreichen, wobei nur minimale Änderungen am Modellarchitektur notwendig sind. Wir belegen die Wirksamkeit unseres Ansatzes an einer breiten Palette von Benchmarks im Bereich des natürlichen Sprachverstehens. Unser allgemeines, aufgabenunabhängiges Modell erreicht eine Leistung, die diskriminativ trainierte Modelle übertrifft, die jeweils speziell für die einzelnen Aufgaben konzipierte Architekturen verwenden, und verbessert dabei den Stand der Technik signifikant in 9 von 12 untersuchten Aufgaben. So erzielen wir absolute Verbesserungen von 8,9 % bei der allgemeinen Vernunftschlussfolgerung (Stories Cloze Test), 5,7 % bei der Fragebeantwortung (RACE) und 1,5 % beim Textentailment (MultiNLI).