Amélioration de la correction des erreurs grammaticales par le pré-entraînement d'une architecture augmentée de copie avec des données non étiquetées

Les systèmes de traduction automatique neuronale sont devenus les approches de pointe pour la tâche de correction grammaticale des erreurs (GEC). Dans cet article, nous proposons une architecture augmentée par copie pour la tâche GEC, qui consiste à copier les mots inchangés de la phrase source vers la phrase cible. Étant donné que la tâche GEC souffre d'un manque de données d'entraînement étiquetées suffisantes pour atteindre une haute précision, nous pré-entraînons l'architecture augmentée par copie avec un dénoising auto-encodeur en utilisant le benchmark One Billion non étiqueté et effectuons des comparaisons entre le modèle entièrement pré-entraîné et un modèle partiellement pré-entraîné. Il s'agit de la première fois que l'on expérimente la copie de mots du contexte source et le pré-entraînement complet d'un modèle séquence à séquence sur la tâche GEC. De plus, nous ajoutons un apprentissage multi-tâches au niveau des tokens et des phrases pour la tâche GEC. Les résultats d'évaluation sur l'ensemble de test CoNLL-2014 montrent que notre approche surpass largement tous les résultats récemment publiés dans l'état de l'art. Le code et les modèles pré-entraînés sont disponibles à l'adresse https://github.com/zhawe01/fairseq-gec.