MUSS : Simplification de phrases multilingue non supervisée par l’exploitation de paraphrases

Les progrès dans la simplification des phrases ont été entravés par un manque de données parallèles étiquetées, en particulier pour les langues autres que l'anglais. Nous présentons MUSS, un système de simplification de phrases multilingue non supervisé qui n'a pas besoin de données de simplification étiquetées. MUSS utilise une approche novatrice pour la simplification des phrases, formant des modèles robustes à partir de données de paraphrase au niveau des phrases plutôt que de données de simplification appropriées. Ces modèles exploitent un pré-entraînement non supervisé et des mécanismes de génération contrôlable pour ajuster flexiblement des attributs tels que la longueur et la complexité lexicale lors de l'inférence. Nous proposons également une méthode pour extraire ces données de paraphrase dans n'importe quelle langue à partir du Common Crawl en utilisant des plongements sémantiques au niveau des phrases, éliminant ainsi le besoin de données étiquetées. Nous évaluons notre approche sur des bancs d'essai de simplification en anglais, français et espagnol, et nous obtenons des résultats très proches ou supérieurs aux meilleurs résultats supervisés précédents, malgré l'absence totale de données de simplification étiquetées. Nous portons encore plus loin l'état de l'art en intégrant des données de simplification étiquetées.