Textzusammenfassung mit vorab trainierten Encodern

Bidirectional Encoder Representations from Transformers (BERT) repräsentiert die neueste Inkarnation von vortrainierten Sprachmodellen, die kürzlich eine breite Palette von Aufgaben der natürlichen Sprachverarbeitung vorangebracht haben. In dieser Arbeit zeigen wir auf, wie BERT nützlich in der Textzusammenfassung eingesetzt werden kann und schlagen einen allgemeinen Rahmen für sowohl extraktive als auch abstraktive Modelle vor. Wir stellen einen neuen dokumentenbasierten Encoder vor, der auf BERT basiert und in der Lage ist, die Semantik eines Dokuments auszudrücken und Repräsentationen für dessen Sätze zu erhalten. Unser extraktives Modell baut auf diesem Encoder auf, indem es mehrere intersätzliche Transformer-Schichten stapelt. Für die abstrakte Zusammenfassung schlagen wir einen neuen Feinabstimmungsplan vor, der verschiedene Optimierer für den Encoder und den Decoder verwendet, um das Missverhältnis zwischen beiden zu mildern (der Erstere wird vortrainiert, während der Letztgenannte dies nicht ist). Wir zeigen außerdem, dass ein zweistufiger Feinabstimmungsansatz die Qualität der generierten Zusammenfassungen weiter verbessern kann. Experimente mit drei Datensätzen zeigen, dass unser Modell in beiden Einstellungen – extraktiv und abstraktiv – überall state-of-the-art-Ergebnisse erzielt. Unser Code ist unter https://github.com/nlpyang/PreSumm verfügbar.