Corpus Internet Chinois Du CCI
Date
URL de publication
Tags
Avec le développement rapide de grands modèles linguistiques, la demande d’ensembles de données de haute qualité continue de croître dans l’industrie et le monde universitaire. Ces ensembles de données doivent non seulement contenir des quantités massives d’informations, mais doivent également être rigoureusement examinés et nettoyés pour garantir leur exactitude et la sécurité des modèles et applications en aval. Cependant, les ensembles de données publics actuellement populaires dans l’industrie présentent certains risques de qualité et de sécurité, en particulier dans le domaine chinois où les ensembles de données de haute qualité sont particulièrement rares. En outre, la création d’un ensemble de données chinois sécurisé présente de nombreux défis. Par conséquent, la construction d’un ensemble de données rigoureusement filtré et standardisé est particulièrement importante pour l’innovation et le développement des LLM.
Corpus chinois Internet (CCI)Se compose de sources fiables et de haute qualité provenant de sites Internet de Chine continentale. Le CCI subit un nettoyage et une déduplication rigoureux des données et effectue des tests et un filtrage ciblés sur la qualité du contenu. Les règles de traitement des données comprennent :
- Filtrage basé sur des règles : extraction basée sur la densité, filtrage par mots-clés, filtrage du spam, conversion en chinois simplifié et traditionnel, etc.
- Filtrage basé sur des modèles : filtrage de contenu de faible qualité en formant des modèles de classification ;
- Déduplication : Déduplication des données au sein et entre les ensembles de données.
En outre, afin de résoudre le problème selon lequel la grande échelle des données de pré-formation peut facilement conduire à une fuite de données d'évaluation, l'équipe de recherche a procédé à un filtrage et à un examen rigoureux de plusieurs ensembles de données d'évaluation grand public en Chine au cours de la phase de traitement des données.
La taille du corpus CCI publié (CCI v1.0.0) est de 104 Go. La période globale de l’ensemble de données s’étend de janvier 2001 à novembre 2023.