HyperAIHyperAI

Command Palette

Search for a command to run...

Momentum-Kalibrierung für Textgenerierung

Xingxing Zhang Yiran Liu Xun Wang Pengcheng He Yang Yu Si-Qing Chen Wayne Xiong Furu Wei

Zusammenfassung

Die Eingabe und Ausgabe der meisten Textgenerierungsaufgaben können in zwei Token-Sequenzen transformiert werden, die mit sequenz-zu-Sequenz-Lernansätzen wie Transformers modelliert werden können. Diese Modelle werden üblicherweise durch Maximierung der Wahrscheinlichkeit der Ausgabetextsequenz trainiert und setzen während des Trainings voraus, dass die Eingabesequenz sowie alle gold-standard-Vorgängertoken gegeben sind. Während der Inferenz leidet das Modell jedoch unter dem Exposure-Bias-Problem (d. h., es hat während des Beam-Search nur Zugriff auf seine zuvor vorhergesagten Tokens, nicht auf die gold-standard-Tokens). In diesem Paper stellen wir MoCa ({\bf Mo}mentum {\bf Ca}libration) für die Textgenerierung vor. MoCa ist eine Online-Methode, die mithilfe eines Bewegungs-Mittelwert-Generators und Beam-Search dynamisch langsam veränderliche (aber konsistente) Proben erzeugt. MoCa lernt dabei, die Modellbewertungen dieser Proben mit deren tatsächlicher Qualität zu korrelieren. Experimente auf vier Textgenerierungsdatasets (nämlich CNN/DailyMail, XSum, SAMSum und Gigaword) zeigen, dass MoCa konsistent die Leistung starker vortrainierter Transformers mit herkömmlichem Fine-Tuning verbessert, und wir erreichen auf den Datensätzen CNN/DailyMail und SAMSum die derzeit besten Ergebnisse.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Momentum-Kalibrierung für Textgenerierung | Paper | HyperAI