SynGEC : Correction des Erreurs Grammaticales Améliorée par la Syntaxe avec un Analyseur Orienté GEC Spécialement Conçu

Ce travail propose une approche de correction d'erreurs grammaticales (GEC) améliorée par la syntaxe, nommée SynGEC, qui intègre efficacement des informations syntaxiques de dépendance dans la partie encodeur des modèles GEC. Le principal défi de cette idée réside dans le fait que les analyseurs syntaxiques standards sont peu fiables lorsqu'ils traitent des phrases non grammaticalement correctes. Pour relever ce défi, nous proposons de construire un analyseur syntaxique spécifique à la GEC (GOPar) en utilisant des données d'entraînement parallèles pour la GEC comme point central. Tout d'abord, nous concevons un schéma de représentation syntaxique étendu qui nous permet de représenter à la fois les erreurs grammaticales et la syntaxe dans une structure arborescente unifiée. Ensuite, nous obtenons les arbres de parsing des phrases sources incorrectes en projetant les arbres des phrases cibles correctes. Enfin, nous entraînons GOPar avec ces arbres projetés. Pour la GEC, nous utilisons un réseau de convolution graphique pour encoder les informations syntaxiques du côté source produites par GOPar, et nous les fusionnons avec les sorties de l'encodeur Transformer. Les expériences menées sur des jeux de données principaux en anglais et en chinois montrent que notre approche SynGEC proposée surpasse constamment et substantiellement des baselines solides et atteint une performance compétitive. Notre code et nos données sont tous disponibles publiquement sur https://github.com/HillZhang1999/SynGEC.