HyperAIHyperAI

Command Palette

Search for a command to run...

Klexikon: Ein deutsches Datensatz für gemeinsame Zusammenfassung und Vereinfachung

Dennis Aumiller Michael Gertz

Zusammenfassung

Traditionell wird die Textvereinfachung als eine monolinguale Übersetzungs-Aufgabe betrachtet, bei der Sätze zwischen Quelltexten und ihren vereinfachten Entsprechungen zur Trainingszwecken ausgerichtet werden. Insbesondere bei längeren Eingabedokumenten spielt jedoch die Zusammenfassung des Textes (oder das Weglassen weniger relevanter Inhalte) eine entscheidende Rolle im Vereinfachungsprozess, was in bestehenden Datensätzen derzeit nicht berücksichtigt wird. Gleichzeitig sind Ressourcen für nicht-englische Sprachen generell rar und für die Entwicklung neuer Lösungen oft unzugänglich. Um dieses Problem anzugehen, formulieren wir zentrale Anforderungen an ein System, das längere Quelldokumente gleichzeitig zusammenfassen und vereinfachen kann. Darüber hinaus beschreiben wir die Erstellung eines neuen Datensatzes für die gemeinsame Textvereinfachung und -zusammenfassung basierend auf der deutschen Wikipedia und dem deutschen Kinderlexikon „Klexikon“, der aus fast 2900 Dokumenten besteht. Wir veröffentlichen eine dokumentenorientierte Version, die insbesondere die Zusammenfassungsaspekte hervorhebt, und liefern statistische Hinweise darauf, dass diese Ressource auch für die Textvereinfachung gut geeignet ist. Code und Daten sind auf Github verfügbar: https://github.com/dennlinger/klexikon


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Klexikon: Ein deutsches Datensatz für gemeinsame Zusammenfassung und Vereinfachung | Paper | HyperAI