HiStruct+: Verbesserung der extraktiven Textzusammenfassung durch hierarchische Strukturinformationen

Transformerbasierte Sprachmodelle behandeln Texte in der Regel als lineare Sequenzen. Allerdings haben die meisten Texte auch eine inhärente hierarchische Struktur, d.h., Teile eines Textes können durch ihre Position in dieser Hierarchie identifiziert werden. Zudem deuten Abschnittstitel in der Regel das gemeinsame Thema ihrer jeweiligen Sätze an. Wir schlagen einen neuen Ansatz vor, um hierarchische Strukturinformationen explizit in ein extraktives Zusammenfassungsmodell zu formulieren, zu extrahieren, zu kodieren und einzuspeisen, das auf einem vortrainierten, nur-Encoder-basierten Transformer-Sprachmodell basiert (HiStruct+-Modell). Dies verbessert die SOTA-ROUGE-Werte für extraktive Zusammenfassungen auf PubMed und arXiv erheblich. Durch verschiedene experimentelle Einstellungen auf drei Datensätzen (nämlich CNN/DailyMail, PubMed und arXiv) übertrifft unser HiStruct+-Modell insgesamt ein starkes Baseline-Modell, das sich von unserem Modell nur dadurch unterscheidet, dass es keine hierarchischen Strukturinformationen einspeist. Es wird auch beobachtet, dass je ausgeprägter die hierarchische Struktur des Datensatzes ist, desto größere Verbesserungen bringt unsere Methode. Die Ablationsstudie zeigt, dass die hierarchische Positionsinformation der Hauptbeitrag zur SOTA-Leistung unseres Modells ist.