Ensemble De Données De Détection Et De Correction Des Erreurs De Grammaire Chinoise FCGEC
Date
Taille
URL de publication
Licence
非商业用途
FCGEC signifie Corpus à grain fin pour la correction des erreurs grammaticales chinoises. Il s'agit d'un corpus de correction d'erreurs de texte multi-références à grande échelle de locuteurs natifs. Utilisée pour former et évaluer le système de modèle de correction d'erreurs, la source de données est principalement constituée de questions de test de phrases incorrectes d'élèves du primaire, du collège et du lycée et de sites Web d'agrégation de nouvelles.
Afin de fournir davantage de méthodes de modification de référence pour les phrases afin d'atteindre divers objectifs d'annotation, chaque phrase sera attribuée aléatoirement à 2 à 4 annotateurs pour l'annotation.Nous avons recueilli 54 026 phrases originales à partir de deux sources de données. Après avoir supprimé les phrases en double et filtré les phrases problématiques (telles que la troncature du texte), FCGEC contient un total de 41 340 phrases.