Common Corpus Großer Offener Textdatensatz
Common Corpus ist ein groß angelegter offener Textdatensatz und die zugehörigen Ergebnisse sind:Common Corpus: Die größte Sammlung ethischer Daten für die LLM-Vorbereitung". Dieser Datensatz enthält ausschließlich urheberrechtsfreie oder freizügig lizenzierte Daten, um Risiken für geistiges Eigentum zu vermeiden. Es handelt sich derzeit um den größten Textdatensatz mit offener Lizenz.
Der Datensatz enthält 2 Billionen Token aus den Bereichen Bücher, wissenschaftliche Literatur, Codes, juristische Dokumente und weitere Bereiche. Die Hauptsprachen sind Englisch und Französisch. Er umfasst außerdem 8 Sprachen mit über 10 Milliarden Token (Deutsch, Spanisch, Italienisch usw.) und 33 Sprachen mit über 1 Milliarde Token.
Kernteilmenge des Datensatzes:
- OpenCulture: Gemeinfreie Bücher und Zeitungen (wie Wikisource, Project Gutenberg), einschließlich OCR-korrigierter historischer Dokumente.
- OpenGovernment: Rechtliche und administrative Dokumente (z. B. SEC-Berichte, WTO-Anmeldungen, Daten des Europäischen Parlaments).
- OpenSource: Hochwertiger GitHub-Code, die besten 80%-Einreichungen mit hoher Qualität, geprüft vom ArmoRM-Tool.
- OpenScience: Akademische Ressourcen wie OpenAlex, die strukturierte Informationen wie Formeln und Diagramme enthalten.
- OpenWeb: Webtexte wie Wikipedia, YouTube Commons, Stack Exchange usw.
- OpenSemantic: Natürliche Sprachtranskription semantischer Tripel aus Wikidata, unterstützt über 300 Sprachen.