HyperAIHyperAI

Command Palette

Search for a command to run...

DEPLAIN: Ein deutsches Parallelkorpus mit intralingualen Übersetzungen in einfache Sprache für Satz- und Dokumentensimplifizierung

Regina Stodden Omar Momen Laura Kallmeyer

Zusammenfassung

Textvereinfachung ist eine intralinguale Übersetzungsaufgabe, bei der Dokumente oder Sätze eines komplexen Quelltexts für eine Zielgruppe vereinfacht werden. Der Erfolg automatischer Textvereinfachungssysteme hängt stark von der Qualität paralleler Trainings- und Evaluierungsdaten ab. Um die Satz- und Dokumentvereinfachung im Deutschen voranzutreiben, präsentieren wir in diesem Beitrag DEplain, eine neue Datensammlung paralleler, professionell verfasster und manuell ausgerichteter Vereinfachungen im einfachen Deutsch („Plain DE“ oder auf Deutsch: „Einfache Sprache“). DEplain besteht aus einem Nachrichtenbereich (ca. 500 Dokumentenpaare, ca. 13.000 Satzpaare) und einer Web-Domain-Korpus (ca. 150 ausgerichtete Dokumente, ca. 2.000 ausgerichtete Satzpaare). Zudem entwickeln wir einen Web-Harvester und experimentieren mit automatischen Ausrichtungsmethoden, um die Integration nicht ausgerichteter sowie zukünftig veröffentlichter paralleler Dokumente zu erleichtern. Mittels dieses Ansatzes erweitern wir dynamisch den Web-Domain-Korpus, der derzeit auf ca. 750 Dokumentenpaare und ca. 3.500 ausgerichteten Satzpaaren angehoben wurde. Wir zeigen, dass die Verwendung von DEplain zur Trainings eines transformerbasierten seq2seq-Modells für Textvereinfachung vielversprechende Ergebnisse liefert. Die Datensammlung, die angepassten Ausrichtungsmethoden für das Deutsche, der Web-Harvester sowie die trainierten Modelle stellen wir hier zur Verfügung: https://github.com/rstodden/DEPlain.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp