HyperAIHyperAI
vor 11 Tagen

DEPLAIN: Ein deutsches Parallelkorpus mit intralingualen Übersetzungen in einfache Sprache für Satz- und Dokumentensimplifizierung

Regina Stodden, Omar Momen, Laura Kallmeyer
DEPLAIN: Ein deutsches Parallelkorpus mit intralingualen Übersetzungen in einfache Sprache für Satz- und Dokumentensimplifizierung
Abstract

Textvereinfachung ist eine intralinguale Übersetzungsaufgabe, bei der Dokumente oder Sätze eines komplexen Quelltexts für eine Zielgruppe vereinfacht werden. Der Erfolg automatischer Textvereinfachungssysteme hängt stark von der Qualität paralleler Trainings- und Evaluierungsdaten ab. Um die Satz- und Dokumentvereinfachung im Deutschen voranzutreiben, präsentieren wir in diesem Beitrag DEplain, eine neue Datensammlung paralleler, professionell verfasster und manuell ausgerichteter Vereinfachungen im einfachen Deutsch („Plain DE“ oder auf Deutsch: „Einfache Sprache“). DEplain besteht aus einem Nachrichtenbereich (ca. 500 Dokumentenpaare, ca. 13.000 Satzpaare) und einer Web-Domain-Korpus (ca. 150 ausgerichtete Dokumente, ca. 2.000 ausgerichtete Satzpaare). Zudem entwickeln wir einen Web-Harvester und experimentieren mit automatischen Ausrichtungsmethoden, um die Integration nicht ausgerichteter sowie zukünftig veröffentlichter paralleler Dokumente zu erleichtern. Mittels dieses Ansatzes erweitern wir dynamisch den Web-Domain-Korpus, der derzeit auf ca. 750 Dokumentenpaare und ca. 3.500 ausgerichteten Satzpaaren angehoben wurde. Wir zeigen, dass die Verwendung von DEplain zur Trainings eines transformerbasierten seq2seq-Modells für Textvereinfachung vielversprechende Ergebnisse liefert. Die Datensammlung, die angepassten Ausrichtungsmethoden für das Deutsche, der Web-Harvester sowie die trainierten Modelle stellen wir hier zur Verfügung: https://github.com/rstodden/DEPlain.

DEPLAIN: Ein deutsches Parallelkorpus mit intralingualen Übersetzungen in einfache Sprache für Satz- und Dokumentensimplifizierung | Neueste Forschungsarbeiten | HyperAI