vor 2 Monaten

Stichproben-effiziente Textzusammenfassung mit einem einzigen vortrainierten Transformer

Urvashi Khandelwal; Kevin Clark; Dan Jurafsky; Lukasz Kaiser

Abstract

Die Vortrainierung von Sprachmodellen (LM) hat zu beeindruckenden Leistungen und einer hervorragenden Stichprobeneffizienz bei verschiedenen Aufgaben der Sprachverarbeitung geführt. Es ist jedoch noch unklar, wie man vortrainierte LMs am besten für Generierungsaufgaben wie die abschließende Zusammenfassung nutzen kann, insbesondere um die Stichprobeneffizienz zu verbessern. In diesen sequenzbasierten Einstellungen haben frühere Arbeiten experimentiert, indem sie vortrainierte Gewichte in die Encoder- und/oder Decoder-Netze geladen, aber nicht vortrainierte Encoder-Decoder-Aufmerksamkeitsgewichte verwendet. Wir verwenden stattdessen ein nur mit einem Decoder ausgestattetes vortrainiertes Netzwerk, bei dem dasselbe Transformer-Sprachmodell sowohl die Quelle kodiert als auch die Zusammenfassung generiert. Dies stellt sicher, dass alle Parameter im Netzwerk, einschließlich derer, die für die Aufmerksamkeit über den Quellzustand zuständig sind, vor dem Feinabstimmungsschritt vortrainiert wurden. Experimente mit dem CNN/Daily Mail-Datensatz zeigen, dass unser vortrainiertes Transformer-Sprachmodell in Einstellungen mit begrenzten Daten erheblich bessere Ergebnisse liefert als vortrainierte Transformer-Encoder-Decoder-Netze. Zum Beispiel erreicht es einen ROUGE-2-Wert von 13,1 unter Verwendung von nur 1 % der Trainingsdaten (ca. 3000 Beispielen), während vortrainierte Encoder-Decoder-Modelle einen ROUGE-2-Wert von 2,3 erzielen.