Ensemble et distillation de connaissances de grands taggeurs de séquences pour la correction d'erreurs grammaticales

Dans cet article, nous étudions des améliorations apportées à l’architecture de balisage de séquences pour la correction grammaticale (GEC), en mettant l’accent sur l’ensemblage d’encodeurs récents basés sur Transformer, de grande taille. Nous encourageons l’ensemblage des modèles par vote majoritaire au niveau des segments, car cette approche est tolérante vis-à-vis de l’architecture du modèle et de la taille du vocabulaire. Notre meilleur ensemble atteint un nouveau résultat SOTA, avec un score $F_{0.5}$ de 76,05 sur BEA-2019 (test), même sans pré-entraînement sur des jeux de données synthétiques. En outre, nous réalisons une distillation de connaissances à partir d’un ensemble entraîné afin de générer de nouveaux jeux de données d’entraînement synthétiques, nommés « Troy-Blogs » et « Troy-1BW ». Notre meilleur modèle unique de balisage de séquences, pré-entraîné sur les jeux de données Troy ainsi que sur le jeu de données synthétique PIE disponible publiquement, atteint un résultat proche du SOTA (selon nos connaissances, seul un modèle T5 bien plus lourd obtient un meilleur score $F_{0.5}$ de 73,21 sur BEA-2019 (test)). Le code, les jeux de données et les modèles entraînés sont disponibles publiquement.