Apprentissage de la simplification à partir d’étiquetages explicites de paires de textes complexes-simplifiés

Les recherches actuelles en simplification de texte sont entravées par deux problèmes majeurs : (i) la faible quantité de données parallèles de haute qualité disponibles pour la simplification, et (ii) le manque d'annotations explicites des opérations de simplification — telles que les suppressions ou les substitutions — sur les données existantes. Bien que le corpus récemment introduit Newsela ait atténué le premier problème, les modèles de simplification doivent encore être appris directement à partir de textes parallèles à l’aide de méthodes « boîte noire » et end-to-end, plutôt que grâce à des annotations explicites. Ces paires de phrases complexes-simplifiées sont souvent si différentes qu’il devient difficile d’obtenir une généralisation efficace. De plus, les modèles end-to-end rendent difficile l’interprétation des connaissances réellement acquises à partir des données. Nous proposons une méthode qui décompose la tâche de simplification de texte (TS) en ses sous-problèmes fondamentaux. Nous avons conçu une approche permettant d’identifier automatiquement les opérations dans un corpus parallèle, et introduisons une méthode de labelisation de séquence basée sur ces annotations. Enfin, nous offrons des perspectives sur les types de transformations que différentes approches sont capables de modéliser.