HyperAIHyperAI
il y a 11 jours

Klexikon : Un jeu de données allemand pour la synthèse et la simplification conjointes

Dennis Aumiller, Michael Gertz
Klexikon : Un jeu de données allemand pour la synthèse et la simplification conjointes
Résumé

Traditionnellement, la simplification de texte est traitée comme une tâche de traduction monolingue, où les phrases des textes sources et leurs versions simplifiées sont alignées pour l'entraînement. Cependant, en particulier pour les documents d'entrée longs, la synthèse du texte (ou l'élimination totale du contenu moins pertinent) joue un rôle crucial dans le processus de simplification, ce qui n'est actuellement pas reflété dans les jeux de données existants. Parallèlement, les ressources disponibles pour les langues autres que l'anglais sont généralement rares, et souvent inaccessibles pour former de nouvelles solutions. Pour relever ce défi, nous formulons les exigences fondamentales d’un système capable de synthétiser et de simplifier conjointement des documents sources longs. Nous décrivons ensuite la création d’un nouveau jeu de données pour la simplification et la synthèse conjointes du texte, basé sur Wikipedia allemande et le lexique destiné aux enfants allemands « Klexikon », comprenant près de 2 900 documents. Nous mettons à disposition une version alignée par document, mettant particulièrement en évidence l’aspect de synthèse, et fournissons des preuves statistiques montrant que cette ressource est également bien adaptée à la simplification. Le code et les données sont disponibles sur GitHub : https://github.com/dennlinger/klexikon

Klexikon : Un jeu de données allemand pour la synthèse et la simplification conjointes | Articles de recherche récents | HyperAI