FCGEC : Corpus Finement Annoté pour la Correction des Erreurs Grammaticales en Chinois

La Correction d'Erreurs Grammaticales (CEG) est récemment largement appliquée dans les systèmes de correction et de relecture automatiques. Cependant, elle reste encore immature en ce qui concerne la CEG chinoise, en raison du manque de données de haute qualité provenant des locuteurs natifs, tant en termes de catégories que d'échelle. Dans cet article, nous présentons FCEGC, un corpus à grain fin pour détecter, identifier et corriger les erreurs grammaticales. FCEGC est un corpus annoté par des humains avec plusieurs références, composé de 41 340 phrases recueillies principalement à partir de questions à choix multiples dans les examens chinois des écoles publiques. De plus, nous proposons un modèle de référence Switch-Tagger-Generator (STG) pour corriger les erreurs grammaticales dans des contextes à ressources limitées. Comparé aux autres modèles de référence en CEG, les résultats expérimentaux montrent que le STG surpasse ces derniers sur notre corpus FCEGC. Cependant, il existe un écart significatif entre les modèles de référence et les humains, ce qui encourage le développement de futurs modèles pour combler cette lacune.