HyperAIHyperAI

Command Palette

Search for a command to run...

Gemeinsames Korpus

Auf Discord diskutieren

Datum

vor einem Jahr

Organisation

Lizenz

Non-Commercial

Common Corpus ist ein großer, offener und autorisierter Textdatensatz mit über 2 Billionen Token, der 2024 von PleIAs veröffentlicht wurde. Er besteht aus fünf verschiedenen Teilmengen, die eine Vielzahl von Textarten abdecken, darunter Bücher, Zeitungen, wissenschaftliche Artikel, Regierungs- und Rechtsdokumente, Codes usw. Die fünf Teilmengen sind:

  • Offene Kultur: Enthält gemeinfreie Bücher, Zeitungen und Wikisource-Inhalte.
  • Offene Regierung: Enthält Finanz- und Rechtsdokumente, beispielsweise von der SEC und der WTO.
  • OpenSource: Enthält hochwertigen Code auf GitHub.
  • OpenScience: Enthält akademische Inhalte wie Open Alex und französische Arbeiten.
  • OpenWeb: Enthält Inhalte von Websites wie Wikipedia, YouTube Commons und Stack Exchange.

Common Corpus-Daten können für kommerzielle und nicht-kommerzielle Zwecke verwendet werden und unterstützen das Filtern von Daten nach Sprache und Jahr. Obwohl der Datensatz von hochgradig toxischen Inhalten und personenbezogenen Daten bereinigt wurde, können dennoch einige Vorurteile und sensible Informationen vorhanden sein. Die Veröffentlichung des Datensatzes wird von einem ausführlichen technischen Bericht begleitet, der Transparenz und Reproduzierbarkeit gewährleistet. Common Corpus wird von mehreren Organisationen und Communities unterstützt, darunter der AI Alliance, Jean Zay und dem Nvidia Inception-Programm.

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp