HyperAIHyperAI

Command Palette

Search for a command to run...

Common Corpus Großer Offener Textdatensatz

Datum

vor 5 Monaten

Paper-URL

arxiv.org

Treten Sie der Discord-Community bei

Common Corpus ist ein groß angelegter offener Textdatensatz und die zugehörigen Ergebnisse sind:Common Corpus: Die größte Sammlung ethischer Daten für die LLM-Vorbereitung". Dieser Datensatz enthält ausschließlich urheberrechtsfreie oder freizügig lizenzierte Daten, um Risiken für geistiges Eigentum zu vermeiden. Es handelt sich derzeit um den größten Textdatensatz mit offener Lizenz.

Der Datensatz enthält 2 Billionen Token aus den Bereichen Bücher, wissenschaftliche Literatur, Codes, juristische Dokumente und weitere Bereiche. Die Hauptsprachen sind Englisch und Französisch. Er umfasst außerdem 8 Sprachen mit über 10 Milliarden Token (Deutsch, Spanisch, Italienisch usw.) und 33 Sprachen mit über 1 Milliarde Token.

Kernteilmenge des Datensatzes:

  • OpenCulture: Gemeinfreie Bücher und Zeitungen (wie Wikisource, Project Gutenberg), einschließlich OCR-korrigierter historischer Dokumente.
  • OpenGovernment: Rechtliche und administrative Dokumente (z. B. SEC-Berichte, WTO-Anmeldungen, Daten des Europäischen Parlaments).
  • OpenSource: Hochwertiger GitHub-Code, die besten 80%-Einreichungen mit hoher Qualität, geprüft vom ArmoRM-Tool.
  • OpenScience: Akademische Ressourcen wie OpenAlex, die strukturierte Informationen wie Formeln und Diagramme enthalten.
  • OpenWeb: Webtexte wie Wikipedia, YouTube Commons, Stack Exchange usw.
  • OpenSemantic: Natürliche Sprachtranskription semantischer Tripel aus Wikidata, unterstützt über 300 Sprachen.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp