Ensemble De Données De Perfectionnement De L'enseignement Du Chinois De Haute Qualité COIG-CQIA
Date
Taille
URL de publication
Catégories

COIG-CQIA signifie Chinese Open Instruction Generalist – La qualité est tout ce dont vous avez besoin. Il s'agit d'un ensemble de données de réglage fin d'instructions open source de haute qualité.L'objectif est de fournir à la communauté chinoise de PNL des données d'optimisation d'instructions de haute qualité, cohérentes avec le comportement d'interaction humaine. Le COIG-CQIA utilise des questions et réponses ainsi que des articles obtenus sur Internet chinois comme données brutes et est construit après un nettoyage en profondeur, une reconstruction et un examen manuel.
Ce projet s'inspire d'études telles que LIMA : Less Is More for Alignment. En utilisant une petite quantité de données de haute qualité, un grand modèle linguistique peut apprendre les comportements d’interaction humaine. C'est pourquoi, lors de la construction des données, une grande attention est portée à la source, à la qualité et à la diversité des données. Pour plus de détails sur l'ensemble de données, veuillez consulter l'introduction des données et le document de l'équipe de recherche.
Collecte de données
- L'équipe de recherche a collecté de nombreuses données textuelles écrites manuellement à partir de plusieurs sources sur Internet chinois afin de garantir la diversité et la richesse des données.
- Les sources de données incluent non seulement les communautés de questions-réponses (telles que Zhihu, Sifou, Douban, Xiaohongshu et Chiba), mais également les plateformes de connaissances de type wiki (telles que l'encyclopédie Baidu), divers types de supports d'examen (tels que les questions d'examen d'entrée au collège et au lycée, les questions d'examen de qualification professionnelle) et les ensembles de données NLP existants.
- Lors de la collecte de données, nous nous concentrons sur la sélection de données pertinentes qui peuvent refléter les modèles d'interaction réels des utilisateurs chinois afin d'améliorer la compréhension du modèle de l'utilisation de la langue dans le monde réel.