Combinaison de systèmes par estimation de qualité pour la correction d'erreurs grammaticales

Des modèles d’estimation de qualité ont été développés afin d’évaluer les corrections apportées par des systèmes de correction d’erreurs grammaticales (GEC) lorsque les corrections de référence ou « gold-standard » ne sont pas disponibles. Un estimateur de qualité idéal pourrait être utilisé pour combiner les sorties de plusieurs systèmes GEC en sélectionnant le meilleur sous-ensemble d’ajustements parmi l’union de toutes les corrections proposées par les systèmes de base. Toutefois, nous avons constaté que les modèles d’estimation de qualité GEC existants se révèlent insuffisants pour distinguer efficacement les corrections correctes des incorrectes, ce qui entraîne un faible score F0.5 lorsqu’ils sont utilisés pour la combinaison de systèmes. Dans cet article, nous proposons GRECO, un nouveau modèle d’estimation de qualité de pointe qui fournit une estimation plus précise de la qualité d’une phrase corrigée, comme le montre une corrélation plus élevée avec le score F0.5 de la phrase corrigée. Ce modèle permet ainsi d’obtenir un système GEC combiné atteignant un score F0.5 supérieur. Nous proposons également trois méthodes pour exploiter les modèles d’estimation de qualité GEC dans le cadre de la combinaison de systèmes, offrant différents niveaux de généralité : une méthode indépendante du modèle, une méthode indépendante du modèle avec biais de vote, et une méthode dépendante du modèle. Le système GEC combiné surpassé l’état de l’art sur les jeux de test CoNLL-2014 et BEA-2019, atteignant les meilleurs scores F0.5 publiés à ce jour.