SATS: Vereinfachungsbeachtende Textzusammenfassung wissenschaftlicher Dokumente

Die Vereinfachung von Zusammenfassungen wissenschaftlicher Publikationen ist eine gängige Methode, um wissenschaftliche Entdeckungen einer breiteren Öffentlichkeit verständlich zu machen. Während die Textzusammenfassung darauf abzielt, lange Dokumente zu verkürzen, strebt die Vereinfachung an, die Komplexität eines Dokuments zu reduzieren. Um diese Aufgaben gemeinsam zu bewältigen, ist die Entwicklung von maschinellen Lernmethoden erforderlich, die längere Texte sowohl kürzen als auch vereinfachen können. In dieser Studie stellen wir ein neues Modell zur vereinfachungsorientierten Textzusammenfassung (Simplification Aware Text Summarization, SATS) vor, das auf der Vorhersage zukünftiger n-Gramme basiert. Das vorgeschlagene SATS-Modell erweitert ProphetNet, ein Modell zur Textzusammenfassung, indem es die Ziel-Funktion durch einen Worthäufigkeits-Lexikon für Vereinfachungsaufgaben verbessert. Wir haben die Leistungsfähigkeit von SATS an einem kürzlich veröffentlichten Korpus zur Textzusammenfassung und -vereinfachung evaluiert, das aus 5.400 Paaren wissenschaftlicher Artikel besteht. Unsere Ergebnisse im Hinblick auf automatisierte Bewertungen zeigen, dass SATS sowohl bei der Vereinfachung, der Zusammenfassung als auch bei der gemeinsamen Vereinfachung-Zusammenfassung auf zwei Datensätzen hinsichtlich ROUGE, SARI und CSS1 die der derzeit besten Ansätze übertrifft. Zudem führen wir eine menschliche Bewertung der von SATS generierten Zusammenfassungen durch. Wir bewerteten 100 Zusammenfassungen anhand von acht Bewertern hinsichtlich Grammatik, Kohärenz, Konsistenz, Flüssigkeit und Einfachheit. Die durchschnittlichen menschlichen Beurteilungen aller bewerteten Dimensionen liegen auf einer Skala von 1 bis 5 zwischen 4,0 und 4,5, wobei 1 niedrig und 5 hoch bedeutet.