XLNet: Verallgemeinerte autoregressive Vortraining für die Sprachverarbeitung

Mit der Fähigkeit, bidirektionale Kontexte zu modellieren, erreichen vorkonditionierte Ansätze auf der Basis von Rauschunterdrückungs-Autoencoding wie BERT bessere Leistungen als vorkonditionierte Ansätze, die auf autoregressiven Sprachmodellen basieren. Allerdings ignoriert BERT durch die Verwendung von Masken zur Verfälschung des Eingangs die Abhängigkeiten zwischen den maskierten Positionen und leidet unter einer Diskrepanz zwischen Vorkonditionierung und Feinabstimmung. Im Lichte dieser Vor- und Nachteile schlagen wir XLNet vor, eine verallgemeinerte autoregressive Vorkonditionierungsmethode, die (1) das Lernen bidirektionaler Kontexte ermöglicht, indem sie die erwartete Wahrscheinlichkeit über alle Permutationen der Faktorisierungsreihenfolge maximiert und (2) die Einschränkungen von BERT dank ihrer autoregressiven Formulierung überwindet. Darüber hinaus integriert XLNet Konzepte aus dem state-of-the-art autoregressiven Modell Transformer-XL in die Vorkonditionierung. Empirisch übertreffen vergleichbare Experimenteinstellungen XLNet BERT bei 20 Aufgaben, oft um einen großen Vorsprung, darunter Fragenbeantwortung, natürliche Sprachinferenz, Sentimentanalyse und Dokumentranking.