HyperAIHyperAI

Command Palette

Search for a command to run...

Gemeinsames Korpus

Discuss on Discord

Date

vor einem Jahr

Organization

License

Non-Commercial

Common Corpus ist ein großer, offener und autorisierter Textdatensatz mit über 2 Billionen Token, der 2024 von PleIAs veröffentlicht wurde. Er besteht aus fünf verschiedenen Teilmengen, die eine Vielzahl von Textarten abdecken, darunter Bücher, Zeitungen, wissenschaftliche Artikel, Regierungs- und Rechtsdokumente, Codes usw. Die fünf Teilmengen sind:

  • Offene Kultur: Enthält gemeinfreie Bücher, Zeitungen und Wikisource-Inhalte.
  • Offene Regierung: Enthält Finanz- und Rechtsdokumente, beispielsweise von der SEC und der WTO.
  • OpenSource: Enthält hochwertigen Code auf GitHub.
  • OpenScience: Enthält akademische Inhalte wie Open Alex und französische Arbeiten.
  • OpenWeb: Enthält Inhalte von Websites wie Wikipedia, YouTube Commons und Stack Exchange.

Common Corpus-Daten können für kommerzielle und nicht-kommerzielle Zwecke verwendet werden und unterstützen das Filtern von Daten nach Sprache und Jahr. Obwohl der Datensatz von hochgradig toxischen Inhalten und personenbezogenen Daten bereinigt wurde, können dennoch einige Vorurteile und sensible Informationen vorhanden sein. Die Veröffentlichung des Datensatzes wird von einem ausführlichen technischen Bericht begleitet, der Transparenz und Reproduzierbarkeit gewährleistet. Common Corpus wird von mehreren Organisationen und Communities unterstützt, darunter der AI Alliance, Jean Zay und dem Nvidia Inception-Programm.

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp