ERNIE-GEN: Ein erweitertes Mehrfluss-Vortrainings- und Feinabstimmungsframework für die natürliche Sprachgenerierung

Aktuelle Vorabtrainingsmethoden im Bereich der natürlichen Sprachgenerierung legen wenig Wert auf das Problem des Expositionsfehlers bei nachgelagerten Aufgaben. Um dieses Problem zu lösen, schlagen wir einen erweiterten sequenzbasierten Vorab- und Feintrainierungsrahmen vor, den ERNIE-GEN, der die Diskrepanz zwischen Training und Inferenz durch ein Infilling-Generierungsmechanismus und eine noise-aware Generierungsmethode überbrückt. Um die Generierung menschlichen Schreibstils näher zu bringen, führt dieser Rahmen einen span-basierten Generierungsfluss ein, der das Modell trainiert, semantisch vollständige Spans nacheinander vorherzusagen, anstatt Wort für Wort zu generieren. Im Gegensatz zu bestehenden Vorabtrainingsmethoden integriert ERNIE-GEN Multi-Granularität-Zielstichproben zur Konstruktion von Vorabtrainingsdaten, was die Korrelation zwischen Encoder und Decoder verbessert. Experimentelle Ergebnisse zeigen, dass ERNIE-GEN mit deutlich weniger Vorabtrainingsdaten und Parametern in einer Reihe von Sprachgenerierungsaufgaben erstklassige Ergebnisse erzielt, darunter abstrakte Zusammenfassung (Gigaword und CNN/DailyMail), Fragegenerierung (SQuAD), Dialoggenerierung (Persona-Chat) und generative Fragebeantwortung (CoQA).