Systèmes de correction grammaticale neuronale avec pré-entraînement non supervisé sur des données synthétiques

Un effort considérable a été fourni pour résoudre le problème de la faible densité des données dans la correction grammaticale par réseaux neuronaux. Dans ce travail, nous proposons une méthode simple mais étonnamment efficace de génération non supervisée d’erreurs synthétiques, fondée sur des ensembles de confusion extraits d’un correcteur orthographique, afin d’accroître la quantité de données d’entraînement. Les données synthétiques sont utilisées pour pré-entraîner un modèle Transformer séquence-à-séquence, ce qui non seulement améliore significativement une base solide entraînée sur des données annotées authentiques, mais permet également le développement d’un système pratique de correction grammaticale dans un contexte où peu de données annotées réelles sont disponibles. Les systèmes développés ont obtenu la première place dans la tâche partagée BEA19, atteignant respectivement 69,47 et 64,24 F$_{0.5}$ sur les parcours restreint et à faibles ressources, tous deux sur l’ensemble de test W{&}I+LOCNESS. Sur l’ensemble de test populaire CoNLL 2014, nous rapportons des résultats de pointe : 64,16 M{mbox{$^2$}} pour le système soumis, et 61,30 M{mbox{$^2$}} pour le système contraint entraîné sur les données NUCLE et Lang-8.