il y a 11 jours

Simplification du texte par étiquetage

Kostiantyn Omelianchuk, Vipul Raheja, Oleksandr Skurzhanskyi

Résumé

Les approches basées sur les éditions ont récemment montré des résultats prometteurs sur plusieurs tâches de transformation de séquences monolingues. Contrairement aux modèles classiques de séquence à séquence (Seq2Seq), qui apprennent à générer du texte de zéro lorsqu’ils sont entraînés sur des corpus parallèles, ces méthodes se sont avérées bien plus efficaces, car elles permettent d’apprendre à effectuer des transformations rapides et précises tout en tirant parti de modèles linguistiques pré-entraînés puissants. Inspirés par ces idées, nous présentons TST, un système simple et efficace de simplification de texte basé sur une étiquetage de séquences, exploitant des encodeurs pré-entraînés fondés sur les Transformers. Notre système applique des augmentations de données élémentaires et des ajustements mineurs durant l’entraînement et l’inférence sur un système existant, ce qui réduit sa dépendance envers de grandes quantités de données parallèles, offre un meilleur contrôle sur les sorties et permet des vitesses d’inférence plus rapides. Notre meilleur modèle atteint des performances proches de l’état de l’art sur les jeux de tests standardisés pour cette tâche. Étant entièrement non-autorégressif, il réalise des vitesses d’inférence plus de 11 fois plus rapides que le système actuel de référence pour la simplification de texte.