DEPLAIN : Un corpus parallèle allemand avec des traductions intralinguales vers un langage simple pour la simplification de phrases et de documents

La simplification de texte est une tâche de traduction intralingue dans laquelle des documents ou des phrases d’un texte source complexe sont simplifiés pour une audience cible. Le succès des systèmes automatisés de simplification de texte dépend fortement de la qualité des données parallèles utilisées pour l’entraînement et l’évaluation. Afin de promouvoir la simplification de phrases et de documents en allemand, cet article présente DEplain, un nouveau jeu de données composé de simplifications parallèles, rédigées professionnellement et alignées manuellement en allemand simple (« plain DE » ou en allemand : « Einfache Sprache »). DEplain comprend un corpus de domaines d’actualités (environ 500 paires de documents, environ 13 000 paires de phrases) et un corpus de domaines web (environ 150 documents alignés, environ 2 000 paires de phrases alignées). En outre, nous développons un outil d’extraction web (web harvester) et expérimentons des méthodes d’alignement automatique afin de faciliter l’intégration de documents parallèles non alignés ou à paraître. Grâce à cette approche, nous agrandissons dynamiquement le corpus du domaine web, qui s’étend désormais à environ 750 paires de documents et environ 3 500 paires de phrases alignées. Nous démontrons que l’utilisation de DEplain pour entraîner un modèle de simplification de texte basé sur des transformateurs (seq2seq) permet d’obtenir des résultats prometteurs. Nous mettons à disposition ici le corpus, les méthodes d’alignement adaptées à l’allemand, l’outil d’extraction web et les modèles entraînés : https://github.com/rstodden/DEPlain.