HyperAIHyperAI

Command Palette

Search for a command to run...

Gemeinsames Korpus

Datum

vor einem Jahr

Organisation

Lizenz

Nicht-kommerziell

Treten Sie der Discord-Community bei

Common Corpus ist ein großer, offener und autorisierter Textdatensatz mit über 2 Billionen Token, der 2024 von PleIAs veröffentlicht wurde. Er besteht aus fünf verschiedenen Teilmengen, die eine Vielzahl von Textarten abdecken, darunter Bücher, Zeitungen, wissenschaftliche Artikel, Regierungs- und Rechtsdokumente, Codes usw. Die fünf Teilmengen sind:

  • Offene Kultur: Enthält gemeinfreie Bücher, Zeitungen und Wikisource-Inhalte.
  • Offene Regierung: Enthält Finanz- und Rechtsdokumente, beispielsweise von der SEC und der WTO.
  • OpenSource: Enthält hochwertigen Code auf GitHub.
  • OpenScience: Enthält akademische Inhalte wie Open Alex und französische Arbeiten.
  • OpenWeb: Enthält Inhalte von Websites wie Wikipedia, YouTube Commons und Stack Exchange.

Common Corpus-Daten können für kommerzielle und nicht-kommerzielle Zwecke verwendet werden und unterstützen das Filtern von Daten nach Sprache und Jahr. Obwohl der Datensatz von hochgradig toxischen Inhalten und personenbezogenen Daten bereinigt wurde, können dennoch einige Vorurteile und sensible Informationen vorhanden sein. Die Veröffentlichung des Datensatzes wird von einem ausführlichen technischen Bericht begleitet, der Transparenz und Reproduzierbarkeit gewährleistet. Common Corpus wird von mehreren Organisationen und Communities unterstützt, darunter der AI Alliance, Jean Zay und dem Nvidia Inception-Programm.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Gemeinsames Korpus | Datensätze | HyperAI