ProphetNet: Vorhersage zukünftiger N-Gramme für die sequenz-zu-Sequenz-Vortrainierung

Diese Arbeit präsentiert ein neues sequenz-zu-Sequenz-Vortrainingsmodell namens ProphetNet, das ein neuartiges selbstüberwachtes Ziel, die Vorhersage zukünftiger n-Gramme, sowie den vorgeschlagenen n-Stream-Selbst-Attention-Mechanismus einführt. Im Gegensatz zu herkömmlichen sequenz-zu-Sequenz-Modellen, die die Vorhersage des nächsten Schritts optimieren, wird ProphetNet durch die Vorhersage der nächsten n Tokens gleichzeitig auf der Grundlage der vorherigen Kontext-Token an jedem Zeitpunkt optimiert. Die Vorhersage zukünftiger n-Gramme fördert explizit die Planung zukünftiger Tokens und verhindert eine Überanpassung an starke lokale Korrelationen. Wir vortrainieren ProphetNet jeweils mit einem Basisdatensatz (16 GB) und einem großskaligen Datensatz (160 GB). Anschließend führen wir Experimente auf den Benchmarks CNN/DailyMail, Gigaword und SQuAD 1.1 für Aufgaben der abstraktiven Zusammenfassung und Fragengenerierung durch. Die experimentellen Ergebnisse zeigen, dass ProphetNet im Vergleich zu Modellen, die denselben Vortrainingskorpus gleicher Größe verwenden, auf allen diesen Datensätzen neue SOTA-Ergebnisse erzielt.