HyperAI

Ensemble De Données De Détection Et De Correction Des Erreurs De Grammaire Chinoise FCGEC

Date

il y a un an

Taille

15.51 MB

Organisation

Université du Zhejiang

URL de publication

github.com

Licence

非商业用途

FCGEC signifie Corpus à grain fin pour la correction des erreurs grammaticales chinoises. Il s'agit d'un corpus de correction d'erreurs de texte multi-références à grande échelle de locuteurs natifs.  Utilisée pour former et évaluer le système de modèle de correction d'erreurs, la source de données est principalement constituée de questions de test de phrases incorrectes d'élèves du primaire, du collège et du lycée et de sites Web d'agrégation de nouvelles.

Afin de fournir davantage de méthodes de modification de référence pour les phrases afin d'atteindre divers objectifs d'annotation, chaque phrase sera attribuée aléatoirement à 2 à 4 annotateurs pour l'annotation.Nous avons recueilli 54 026 phrases originales à partir de deux sources de données. Après avoir supprimé les phrases en double et filtré les phrases problématiques (telles que la troncature du texte), FCGEC contient un total de 41 340 phrases.

FCGEC.torrent
Partage 1Téléchargement 1Terminés 125Téléchargements totaux 405
  • FCGEC/
    • README.md
      1.33 KB
    • README.txt
      2.65 KB
      • data/
        • FCGEC_test.json
          815.18 KB
        • FCGEC_train.json
          14.73 MB
        • FCGEC_valid.json
          15.51 MB