MASS: Maskierte Sequenz-zu-Sequenz-Vorverarbeitung für Sprachgenerierung

Vorab-Training und Feinjustierung, wie z.B. BERT, haben bei der Sprachverarbeitung großen Erfolg erzielt, indem sie Wissen von reichhaltigen Ressourcen im Vorab-Training auf Downstream-Aufgaben mit geringen oder null Ressourcen übertragen. Inspiriert durch den Erfolg von BERT, schlagen wir das MAsk Sequence-to-Sequence-Vorab-Training (MASS) für encoder-decoder-basierte Spracherzeugungsaufgaben vor. MASS verwendet das encoder-decoder-Framework, um einen Satzfragment unter Verwendung des verbleibenden Teils des Satzes zu rekonstruieren: sein Encoder nimmt einen Satz mit zufällig maskiertem Fragment (mehrere aufeinanderfolgende Token) als Eingabe entgegen, und sein Decoder versucht, dieses maskierte Fragment zuvorzusagen. Auf diese Weise kann MASS den Encoder und den Decoder gemeinsam trainieren, um die Fähigkeit zur Merkmalsextraktion und Sprachmodellierung zu entwickeln. Durch weitere Feinjustierung an einer Vielzahl von zero/low-resource-Spracherzeugungsaufgaben, einschließlich neuronale Maschinübersetzung, Textzusammenfassung und konversationsbasierte Antwortgenerierung (3 Aufgaben insgesamt mit 8 Datensätzen), erreicht MASS signifikante Verbesserungen gegenüber Baseline-Modellen ohne Vorab-Training oder mit anderen Vorab-Trainingsmethoden. Insbesondere erreichen wir den aktuellen Stand der Technik in Bezug auf die Genauigkeit (37,5 gemessen am BLEU-Score) bei der unüberwachten Englisch-Französischen Übersetzung, wobei wir sogar frühere aufmerksamkeitsbasierte überwachte Modelle übertreffen.