vor 2 Monaten

Vereinheitlichtes Sprachmodell-Prätraining für die natürlichsprachliche Verarbeitung und Generierung

Li Dong; Nan Yang; Wenhui Wang; Furu Wei; Xiaodong Liu; Yu Wang; Jianfeng Gao; Ming Zhou; Hsiao-Wuen Hon

Abstract

Dieses Papier stellt ein neues, vereinheitlichtes vortrainiertes Sprachmodell (Unified pre-trained Language Model, UniLM) vor, das sowohl für Aufgaben des natürlichsprachlichen Verständnisses als auch der natürlichsprachlichen Generierung feintunebar ist. Das Modell wird mit drei Arten von Sprachmodellierungsaufgaben vortrainiert: unidirektional, bidirektional und sequenz-zu-sequenz-Vorhersage. Die vereinheitlichte Modellierung wird durch die Verwendung eines gemeinsamen Transformer-Netzwerks und spezifischer Selbst-Aufmerksamkeitsmasken erreicht, um den Kontext zu steuern, auf den sich die Vorhersage bedingt. UniLM erzielt vergleichbare Ergebnisse wie BERT im GLUE-Benchmark sowie in den Fragebeantwortungsaufgaben SQuAD 2.0 und CoQA. Darüber hinaus erreicht UniLM neue Stand der Technik-Ergebnisse auf fünf Datensätzen zur natürlichsprachlichen Generierung: Es verbessert die ROUGE-L-Werte für die CNN/DailyMail-Extraktionszusammenfassung auf 40,51 (absolute Verbesserung von 2,04), für die Gigaword-Extraktionszusammenfassung auf 35,75 (absolute Verbesserung von 0,86), den F1-Score bei der generativen Fragebeantwortung in CoQA auf 82,5 (absolute Verbesserung von 37,1), den BLEU-4-Wert bei der FragenGenerierung in SQuAD auf 22,12 (absolute Verbesserung von 3,75) und den NIST-4-Wert bei der generationsbasierten DialogantwortenGenerierung im DSTC7-Datensatz auf 2,67 (die menschliche Leistung beträgt 2,65). Der Code und die vortrainierten Modelle sind unter https://github.com/microsoft/unilm verfügbar.