HyperAI

Gemeinsamer Corpus-zh-chinesischer Public Domain-Datensatz

Datum

vor einem Jahr

Größe

225.16 MB

Organisation

Umarmendes Gesicht

Veröffentlichungs-URL

huggingface.co

Common Corpus wurde gemeinsam von Pleias, HuggingFace und anderen Organisationen erstellt.Es handelt sich um den derzeit größten öffentlich verfügbaren Datensatz.Speziell für das Training großer Sprachmodelle (LLMs) entwickelt.Der Datensatz enthält 500 Milliarden Wörter aus verschiedenen Kulturerbeprojekten auf der ganzen Welt.Es umfasst mehrere Sprachen, darunter Englisch, Französisch, Chinesisch, Spanisch, Deutsch und Italienisch, und ist die bislang umfassendste Sprachressourcenbibliothek.

Es enthält den bislang größten englischen Datensatz, darunter 180 Milliarden Wörter, 21 Millionen Dokumente aus Chronicling America, einem großen US-amerikanischen Projekt zur Digitalisierung von Zeitungen, Originalkorpuskarten von Nomic AI und von Sebastian Majstorovic gesammelte Monographiedaten. Darüber hinaus enthält Common Corpus die größten offenen Datensätze für Französisch (110 Milliarden Wörter), Deutsch (30 Milliarden Wörter), Spanisch, Niederländisch und Italienisch sowie einige ressourcenarme Sprachen, die selten am Training großer Sprachmodelle beteiligt sind.

Die Einführung dieses Datensatzes zeigt, dass LLMs auch ohne die Verwendung urheberrechtlich geschützter Inhalte wie Common Crawl trainiert werden können. Ziel ist es, eine leistungsstarke Plattform für den KI-Datenaustausch aufzubauen, den Forschungsprozess zu vereinfachen, die Reproduzierbarkeit der Forschung zu verbessern, die Popularisierung, Vielfalt und Demokratisierung der KI zu fördern und die Verbreitung von Wissen und die Anwendung großer Modelle sicherzustellen.

Common-Corpus-zh.torrent
Seeding 1Herunterladen 1Abgeschlossen 66Gesamtdownloads 208
  • Common-Corpus-zh/
    • README.md
      1.93 KB
    • README.txt
      3.86 KB
      • data/
        • Chinese-PD.zip
          225.16 MB