il y a 16 jours

Modèles d'édition itératifs parallèles pour la transduction de séquences locales

Abhijeet Awasthi, Sunita Sarawagi, Rasna Goyal, Sabyasachi Ghosh, Vihari Piratla

Résumé

Nous présentons un modèle d’édition itérative parallèle (PIE) pour le problème de la transduction de séquences locales, tel qu’il apparaît dans des tâches comme la correction grammaticale (GEC). Les approches récentes s’appuient sur le modèle populaire d’encodeur-décodage (ED) pour l’apprentissage séquence-à-séquence. Ce modèle ED capte de manière auto-régressive toutes les dépendances entre les tokens de sortie, mais il est lent en raison du décodage séquentiel. Le modèle PIE permet un décodage parallèle, au prix de la perte de l’avantage de modéliser toutes les dépendances dans la sortie, tout en atteignant une précision compétitive par rapport au modèle ED, pour quatre raisons : 1. prédire des corrections plutôt que des tokens, 2. étiqueter des séquences au lieu de les générer, 3. affiner itérativement les prédictions pour capturer les dépendances, et 4. factoriser les logits sur les corrections et leurs arguments token afin d’exploiter efficacement des modèles pré-entraînés comme BERT. Des expériences menées sur des tâches couvrant la GEC, la correction d’OCR et la correction orthographique démontrent que le modèle PIE constitue une alternative précise et significativement plus rapide pour la transduction de séquences locales.