Gemeinsames Korpus
Datum
Veröffentlichungs-URL
Lizenz
非商业用途
Kategorien
Common Corpus ist ein großer, offener und autorisierter Textdatensatz mit über 2 Billionen Token, der 2024 von PleIAs veröffentlicht wurde. Er besteht aus fünf verschiedenen Teilmengen, die eine Vielzahl von Textarten abdecken, darunter Bücher, Zeitungen, wissenschaftliche Artikel, Regierungs- und Rechtsdokumente, Codes usw. Die fünf Teilmengen sind:
- Offene Kultur: Enthält gemeinfreie Bücher, Zeitungen und Wikisource-Inhalte.
- Offene Regierung: Enthält Finanz- und Rechtsdokumente, beispielsweise von der SEC und der WTO.
- OpenSource: Enthält hochwertigen Code auf GitHub.
- OpenScience: Enthält akademische Inhalte wie Open Alex und französische Arbeiten.
- OpenWeb: Enthält Inhalte von Websites wie Wikipedia, YouTube Commons und Stack Exchange.
Common Corpus-Daten können für kommerzielle und nicht-kommerzielle Zwecke verwendet werden und unterstützen das Filtern von Daten nach Sprache und Jahr. Obwohl der Datensatz von hochgradig toxischen Inhalten und personenbezogenen Daten bereinigt wurde, können dennoch einige Vorurteile und sensible Informationen vorhanden sein. Die Veröffentlichung des Datensatzes wird von einem ausführlichen technischen Bericht begleitet, der Transparenz und Reproduzierbarkeit gewährleistet. Common Corpus wird von mehreren Organisationen und Communities unterstützt, darunter der AI Alliance, Jean Zay und dem Nvidia Inception-Programm.