HyperAI

CCI Chinesisches Internetkorpus

Datum

vor einem Jahr

Organisation

Veröffentlichungs-URL

huggingface.co

Download-Hilfe

Mit der rasanten Entwicklung großer Sprachmodelle steigt die Nachfrage nach qualitativ hochwertigen Datensätzen in Industrie und Wissenschaft weiter an. Diese Datensätze müssen nicht nur enorme Mengen an Informationen enthalten, sondern auch gründlich geprüft und bereinigt werden, um ihre Genauigkeit und die Sicherheit nachgelagerter Modelle und Anwendungen zu gewährleisten. Allerdings bergen die in der Branche derzeit beliebten öffentlichen Datensätze gewisse Qualitäts- und Sicherheitsrisiken, insbesondere im chinesischen Bereich, wo qualitativ hochwertige Datensätze besonders rar sind. Darüber hinaus ist der Aufbau eines sicheren chinesischen Datensatzes mit zahlreichen Herausforderungen verbunden. Daher ist die Erstellung eines streng geprüften und standardisierten Datensatzes für die Innovation und Entwicklung von LLMs besonders wichtig.

Chinesisches Corpora Internet (CCI)Besteht aus hochwertigen, vertrauenswürdigen Quellen von Internet-Websites vom chinesischen Festland. CCI unterzieht die Daten einer gründlichen Bereinigung und Deduplizierung und führt gezielte Tests und Filterungen hinsichtlich der Inhaltsqualität durch. Zu den Datenverarbeitungsregeln gehören:

  • Regelbasiertes Filtern: Dichtebasierte Extraktion, Schlüsselwortfilterung, Spamfilterung, Konvertierung in vereinfachtes und traditionelles Chinesisch usw.
  • Modellbasiertes Filtern: Filtern von Inhalten geringer Qualität durch Trainieren von Klassifizierungsmodellen;
  • Deduplizierung: Deduplizierung von Daten innerhalb und zwischen Datensätzen.

Um außerdem das Problem zu lösen, dass es aufgrund der großen Menge an Vortrainingsdaten leicht zu einem Verlust von Bewertungsdaten kommen kann, führte das Forschungsteam während der Datenverarbeitungsphase eine strenge Überprüfung und Filterung mehrerer gängiger Bewertungsdatensätze in China durch.

Die Größe des veröffentlichten CCI-Korpus (CCI v1.0.0) beträgt 104 GB. Der Gesamtzeitraum des Datensatzes reicht von Januar 2001 bis November 2023.