LM-Critic : Modèles linguistiques pour la correction grammaticale non supervisée

L’entraînement d’un modèle de correction d’erreurs grammaticales (GEC) nécessite un ensemble de paires de phrases incorrectes/correctes étiquetées, mais l’annotation manuelle de telles paires peut s’avérer coûteuse. Récemment, le cadre Break-It-Fix-It (BIFI) a démontré des résultats prometteurs dans l’apprentissage de la réparation de programmes corrompus sans exemple étiqueté, mais cela repose sur un « critique parfait » (par exemple, un compilateur) capable de déterminer si un exemple est valide ou non — une condition qui n’existe pas pour la tâche de GEC. Dans ce travail, nous montrons comment exploiter un modèle de langage préentraîné (LM) pour définir un « critique LM », qui juge une phrase comme grammaticale si le LM lui attribue une probabilité plus élevée que celle de ses perturbations locales. Nous appliquons ce critique LM conjointement avec le cadre BIFI, à l’aide d’un grand ensemble de phrases non étiquetées, afin de générer de manière itérative des paires réalistes de phrases incorrectes/correctes pour entraîner un correcteur. Nous évaluons notre approche sur plusieurs jeux de données GEC couvrant divers domaines (CoNLL-2014, BEA-2019, GMEG-wiki et GMEG-yahoo), et montrons qu’elle surpasse les méthodes existantes, tant dans le cadre non supervisé (+7,7 F0.5) que dans le cadre supervisé (+0,5 F0.5).