Klexikon: Ein deutsches Datensatz für gemeinsame Zusammenfassung und Vereinfachung

Traditionell wird die Textvereinfachung als eine monolinguale Übersetzungs-Aufgabe betrachtet, bei der Sätze zwischen Quelltexten und ihren vereinfachten Entsprechungen zur Trainingszwecken ausgerichtet werden. Insbesondere bei längeren Eingabedokumenten spielt jedoch die Zusammenfassung des Textes (oder das Weglassen weniger relevanter Inhalte) eine entscheidende Rolle im Vereinfachungsprozess, was in bestehenden Datensätzen derzeit nicht berücksichtigt wird. Gleichzeitig sind Ressourcen für nicht-englische Sprachen generell rar und für die Entwicklung neuer Lösungen oft unzugänglich. Um dieses Problem anzugehen, formulieren wir zentrale Anforderungen an ein System, das längere Quelldokumente gleichzeitig zusammenfassen und vereinfachen kann. Darüber hinaus beschreiben wir die Erstellung eines neuen Datensatzes für die gemeinsame Textvereinfachung und -zusammenfassung basierend auf der deutschen Wikipedia und dem deutschen Kinderlexikon „Klexikon“, der aus fast 2900 Dokumenten besteht. Wir veröffentlichen eine dokumentenorientierte Version, die insbesondere die Zusammenfassungsaspekte hervorhebt, und liefern statistische Hinweise darauf, dass diese Ressource auch für die Textvereinfachung gut geeignet ist. Code und Daten sind auf Github verfügbar: https://github.com/dennlinger/klexikon