Atteindre des performances au niveau humain dans la correction automatique des erreurs grammaticales : une étude empirique

Les approches de séquence à séquence (seq2seq) neuronales ont fait leurs preuves dans la correction des erreurs grammaticales (GEC). Nous proposons, sur la base du cadre seq2seq, un nouveau mécanisme d'apprentissage et d'inférence pour améliorer la fluidité. L'apprentissage par amélioration de la fluidité génère des paires de phrases corrigées diversifiées pendant l'entraînement, permettant au modèle de correction d'erreurs d'apprendre comment améliorer la fluidité d'une phrase à partir de plus d'exemples. Quant à l'inférence par amélioration de la fluidité, elle permet au modèle de corriger une phrase progressivement en plusieurs étapes d'inférence. En combinant l'apprentissage et l'inférence par amélioration de la fluidité avec des modèles seq2seq convolutifs, notre approche atteint des performances de pointe : 75,72 (F_{0.5}) sur le jeu de données annotées CoNLL-2014 et 62,42 (GLEU) sur le jeu de test JFLEG, respectivement. Elle devient ainsi le premier système GEC à atteindre des performances équivalentes à celles humaines (72,58 pour CoNLL et 62,37 pour JFLEG) sur les deux benchmarks.