HyperAIHyperAI
vor 16 Tagen

Momentum-Kalibrierung für Textgenerierung

Xingxing Zhang, Yiran Liu, Xun Wang, Pengcheng He, Yang Yu, Si-Qing Chen, Wayne Xiong, Furu Wei
Momentum-Kalibrierung für Textgenerierung
Abstract

Die Eingabe und Ausgabe der meisten Textgenerierungsaufgaben können in zwei Token-Sequenzen transformiert werden, die mit sequenz-zu-Sequenz-Lernansätzen wie Transformers modelliert werden können. Diese Modelle werden üblicherweise durch Maximierung der Wahrscheinlichkeit der Ausgabetextsequenz trainiert und setzen während des Trainings voraus, dass die Eingabesequenz sowie alle gold-standard-Vorgängertoken gegeben sind. Während der Inferenz leidet das Modell jedoch unter dem Exposure-Bias-Problem (d. h., es hat während des Beam-Search nur Zugriff auf seine zuvor vorhergesagten Tokens, nicht auf die gold-standard-Tokens). In diesem Paper stellen wir MoCa ({\bf Mo}mentum {\bf Ca}libration) für die Textgenerierung vor. MoCa ist eine Online-Methode, die mithilfe eines Bewegungs-Mittelwert-Generators und Beam-Search dynamisch langsam veränderliche (aber konsistente) Proben erzeugt. MoCa lernt dabei, die Modellbewertungen dieser Proben mit deren tatsächlicher Qualität zu korrelieren. Experimente auf vier Textgenerierungsdatasets (nämlich CNN/DailyMail, XSum, SAMSum und Gigaword) zeigen, dass MoCa konsistent die Leistung starker vortrainierter Transformers mit herkömmlichem Fine-Tuning verbessert, und wir erreichen auf den Datensätzen CNN/DailyMail und SAMSum die derzeit besten Ergebnisse.

Momentum-Kalibrierung für Textgenerierung | Neueste Forschungsarbeiten | HyperAI