HyperAIHyperAI

Command Palette

Search for a command to run...

Stichproben-effiziente Textzusammenfassung mit einem einzigen vortrainierten Transformer

Urvashi Khandelwal Kevin Clark Dan Jurafsky Łukasz Kaiser

Zusammenfassung

Die Vortrainierung von Sprachmodellen (LM) hat zu beeindruckenden Leistungen und einer hervorragenden Stichprobeneffizienz bei verschiedenen Aufgaben der Sprachverarbeitung geführt. Es ist jedoch noch unklar, wie man vortrainierte LMs am besten für Generierungsaufgaben wie die abschließende Zusammenfassung nutzen kann, insbesondere um die Stichprobeneffizienz zu verbessern. In diesen sequenzbasierten Einstellungen haben frühere Arbeiten experimentiert, indem sie vortrainierte Gewichte in die Encoder- und/oder Decoder-Netze geladen, aber nicht vortrainierte Encoder-Decoder-Aufmerksamkeitsgewichte verwendet. Wir verwenden stattdessen ein nur mit einem Decoder ausgestattetes vortrainiertes Netzwerk, bei dem dasselbe Transformer-Sprachmodell sowohl die Quelle kodiert als auch die Zusammenfassung generiert. Dies stellt sicher, dass alle Parameter im Netzwerk, einschließlich derer, die für die Aufmerksamkeit über den Quellzustand zuständig sind, vor dem Feinabstimmungsschritt vortrainiert wurden. Experimente mit dem CNN/Daily Mail-Datensatz zeigen, dass unser vortrainiertes Transformer-Sprachmodell in Einstellungen mit begrenzten Daten erheblich bessere Ergebnisse liefert als vortrainierte Transformer-Encoder-Decoder-Netze. Zum Beispiel erreicht es einen ROUGE-2-Wert von 13,1 unter Verwendung von nur 1 % der Trainingsdaten (ca. 3000 Beispielen), während vortrainierte Encoder-Decoder-Modelle einen ROUGE-2-Wert von 2,3 erzielen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp