Correction grammaticale non supervisée rivalisant les méthodes supervisées

Les systèmes d’erreur grammatical (GEC) de pointe reposent sur des données d’apprentissage parallèles (phrases incorrectes et leurs versions corrigées manuellement), qui sont coûteuses à produire. Dans cet article, nous utilisons la méthode Break-It-Fix-It (BIFI) pour construire un système de GEC non supervisé. Le cadre BIFI génère des données parallèles à partir de textes non étiquetés en utilisant un « correcteur » (fixer) pour transformer des phrases incorrectes en phrases grammaticalement correctes, ainsi qu’un « critique » (critic) pour prédire la grammaticalité des phrases. Nous proposons une approche non supervisée pour entraîner le correcteur et le critique, ainsi qu’un algorithme permettant à ces deux composants de s’améliorer itérativement mutuellement. Nous évaluons notre système de GEC non supervisé sur des tâches de GEC en anglais et en chinois. Les résultats expérimentaux montrent que notre système surpasse les précédents systèmes de GEC non supervisés, et atteint des performances comparables à celles des systèmes supervisés, sans recourir à l’ensemble (ensemble learning). En outre, lorsqu’il est combiné à des données d’apprentissage étiquetées, notre système obtient de nouveaux résultats d’état de l’art sur les jeux de test CoNLL-2014 et NLPCC-2018.