Berücksichtigung der verschachtelten Baumstruktur bei der satzbasierenden Zusammenfassung mit vortrainierten Transformern

Die extraktive Zusammenfassung von Texten verkürzt ein Dokument durch die Auswahl relevanter Sätze, wobei der wichtigste Inhalt erhalten bleibt. Allerdings ist die Erstellung einer kohärenten und informativen Zusammenfassung mithilfe eines vortrainierten BERT-basierten Encoders schwierig, da dieser nicht explizit dafür trainiert wurde, die Informationen einzelner Sätze innerhalb eines Dokuments angemessen darzustellen. Wir stellen ein auf RoBERTa basierendes extraktives Zusammenfassungsmodell mit geschachtelten Baumstrukturen (NeRoBERTa) vor, bei dem die geschachtelten Baumstrukturen aus syntaktischen und diskursiven Bäumen in einem gegebenen Dokument bestehen. Experimentelle Ergebnisse auf dem CNN/DailyMail-Datensatz zeigen, dass NeRoBERTa die Baseline-Modelle in Bezug auf ROUGE übertrifft. Auch die menschliche Bewertung ergab, dass NeRoBERTa signifikant bessere Werte hinsichtlich Kohärenz erreicht als die Baselines und vergleichbare Ergebnisse zu den derzeit besten Modellen erzielt.