Une Recette Simple pour la Correction Grammaticale Multilingue

Cet article présente une méthode simple pour entraîner des modèles d’erreur grammaticale multilingue (GEC) de pointe. Nous y parvenons en proposant tout d’abord une méthode indépendante du langage pour générer un grand nombre d’exemples synthétiques. Le deuxième élément clé consiste à utiliser des modèles linguistiques multilingues à grande échelle (jusqu’à 11 milliards de paramètres). Une fois finement ajustés sur des jeux de données supervisés spécifiques à chaque langue, nos modèles surpassent les résultats précédents de l’état de l’art sur les benchmarks GEC pour quatre langues : l’anglais, le tchèque, l’allemand et le russe. En établissant une nouvelle série de références pour le GEC, nous rendons nos résultats facilement reproductibles et accessibles en publiant un nouveau jeu de données, le cLang-8. Ce dernier est généré en utilisant notre meilleur modèle, que nous appelons gT5, pour nettoyer les cibles d’un jeu de données largement utilisé mais bruyant, le lang-8. Le cLang-8 simplifie considérablement les pipelines d’entraînement typiques du GEC, qui comportent généralement plusieurs étapes de fin ajustement : nous démontrons qu’un seul passage de fin ajustement sur cLang-8, en utilisant des modèles linguistiques prêts à l’emploi, permet d’obtenir des améliorations supplémentaires en précision par rapport à un modèle gT5 déjà hautement performant pour l’anglais.