HyperAIHyperAI

Command Palette

Search for a command to run...

Common Corpus Großer Offener Textdatensatz

Auf Discord diskutieren

Common Corpus ist ein groß angelegter offener Textdatensatz und die zugehörigen Ergebnisse sind:Common Corpus: Die größte Sammlung ethischer Daten für die LLM-Vorbereitung". Dieser Datensatz enthält ausschließlich urheberrechtsfreie oder freizügig lizenzierte Daten, um Risiken für geistiges Eigentum zu vermeiden. Es handelt sich derzeit um den größten Textdatensatz mit offener Lizenz.

Der Datensatz enthält 2 Billionen Token aus den Bereichen Bücher, wissenschaftliche Literatur, Codes, juristische Dokumente und weitere Bereiche. Die Hauptsprachen sind Englisch und Französisch. Er umfasst außerdem 8 Sprachen mit über 10 Milliarden Token (Deutsch, Spanisch, Italienisch usw.) und 33 Sprachen mit über 1 Milliarde Token.

Kernteilmenge des Datensatzes:

  • OpenCulture: Gemeinfreie Bücher und Zeitungen (wie Wikisource, Project Gutenberg), einschließlich OCR-korrigierter historischer Dokumente.
  • OpenGovernment: Rechtliche und administrative Dokumente (z. B. SEC-Berichte, WTO-Anmeldungen, Daten des Europäischen Parlaments).
  • OpenSource: Hochwertiger GitHub-Code, die besten 80%-Einreichungen mit hoher Qualität, geprüft vom ArmoRM-Tool.
  • OpenScience: Akademische Ressourcen wie OpenAlex, die strukturierte Informationen wie Formeln und Diagramme enthalten.
  • OpenWeb: Webtexte wie Wikipedia, YouTube Commons, Stack Exchange usw.
  • OpenSemantic: Natürliche Sprachtranskription semantischer Tripel aus Wikidata, unterstützt über 300 Sprachen.

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp