Simplification textuelle neuronale non supervisée

L'article présente une première tentative d'assimplification neuronale non supervisée du texte qui ne repose que sur des corpus de texte non étiquetés. Le cadre principal est composé d'un encodeur partagé et d'une paire de décodeurs à attention, et il acquiert des connaissances en simplification grâce à des pertes basées sur la discrimination et au débruitage. Le cadre est entraîné en utilisant du texte non étiqueté collecté à partir de la base de données en-Wikipedia. Notre analyse (à la fois quantitative et qualitative, impliquant des évaluateurs humains) sur des données de test publiques montre que le modèle proposé peut effectuer l'assimplification du texte aux niveaux lexicaux et syntaxiques, avec des performances comparables à celles des méthodes supervisées existantes. L'ajout de quelques paires étiquetées améliore également les performances.Note: - "text simplification" is translated as "assimplification du texte" to maintain the technical term in French.- "unlabeled text corpora" is translated as "corpus de texte non étiquetés."- "en-Wikipedia dump" is kept as is since it refers to a specific dataset.- "quantitative and qualitative" is directly translated to maintain the formal style.- "human evaluators" is translated as "évaluateurs humains."