Command Palette
Search for a command to run...
XLNet: Verallgemeinerte autoregressive Vortraining für die Sprachverarbeitung
XLNet: Verallgemeinerte autoregressive Vortraining für die Sprachverarbeitung
Zhilin Yang Zihang Dai Yiming Yang Jaime Carbonell Ruslan Salakhutdinov Quoc V. Le
Zusammenfassung
Mit der Fähigkeit, bidirektionale Kontexte zu modellieren, erreichen vorkonditionierte Ansätze auf der Basis von Rauschunterdrückungs-Autoencoding wie BERT bessere Leistungen als vorkonditionierte Ansätze, die auf autoregressiven Sprachmodellen basieren. Allerdings ignoriert BERT durch die Verwendung von Masken zur Verfälschung des Eingangs die Abhängigkeiten zwischen den maskierten Positionen und leidet unter einer Diskrepanz zwischen Vorkonditionierung und Feinabstimmung. Im Lichte dieser Vor- und Nachteile schlagen wir XLNet vor, eine verallgemeinerte autoregressive Vorkonditionierungsmethode, die (1) das Lernen bidirektionaler Kontexte ermöglicht, indem sie die erwartete Wahrscheinlichkeit über alle Permutationen der Faktorisierungsreihenfolge maximiert und (2) die Einschränkungen von BERT dank ihrer autoregressiven Formulierung überwindet. Darüber hinaus integriert XLNet Konzepte aus dem state-of-the-art autoregressiven Modell Transformer-XL in die Vorkonditionierung. Empirisch übertreffen vergleichbare Experimenteinstellungen XLNet BERT bei 20 Aufgaben, oft um einen großen Vorsprung, darunter Fragenbeantwortung, natürliche Sprachinferenz, Sentimentanalyse und Dokumentranking.