Datum

vor 2 Jahren

Größe

225.16 MB

Organisation

Tags

Common Corpus wurde gemeinsam von Pleias, HuggingFace und anderen Organisationen erstellt.**Es handelt sich um den derzeit größten öffentlich verfügbaren Datensatz.**Speziell für das Training großer Sprachmodelle (LLMs) entwickelt.**Der Datensatz enthält 500 Milliarden Wörter aus verschiedenen Kulturerbeprojekten auf der ganzen Welt.**Es umfasst mehrere Sprachen, darunter Englisch, Französisch, Chinesisch, Spanisch, Deutsch und Italienisch, und ist die bislang umfassendste Sprachressourcenbibliothek. Es enthält den bislang größten englischen Datensatz, darunter 180 Milliarden Wörter, 21 Millionen Dokumente aus Chronicling America, einem großen US-amerikanischen Projekt zur Digitalisierung von Zeitungen, Originalkorpuskarten von Nomic AI und von Sebastian Majstorovic gesammelte Monographiedaten. Darüber hinaus enthält Common Corpus die größten offenen Datensätze für Französisch (110 Milliarden Wörter), Deutsch (30 Milliarden Wörter), Spanisch, Niederländisch und Italienisch sowie einige ressourcenarme Sprachen, die selten am Training großer Sprachmodelle beteiligt sind. Die Einführung dieses Datensatzes zeigt, dass LLMs auch ohne die Verwendung urheberrechtlich geschützter Inhalte wie Common Crawl trainiert werden können. Ziel ist es, eine leistungsstarke Plattform für den KI-Datenaustausch aufzubauen, den Forschungsprozess zu vereinfachen, die Reproduzierbarkeit der Forschung zu verbessern, die Popularisierung, Vielfalt und Demokratisierung der KI zu fördern und die Verbreitung von Wissen und die Anwendung großer Modelle sicherzustellen.

Common-Corpus-zh.torrent

Seeding 1Wird heruntergeladen 0Abgeschlossen 153Gesamtdownloads 404

Common-Corpus-zh/
- README.md
  1.93 KB
- README.txt
  3.86 KB

Dieser Datensatz wurde von Community-Nutzern beigesteuert und dient ausschließlich Bildungs- und Informationszwecken. Falls Inhalte eine Urheberrechtsverletzung darstellen, kontaktieren Sie uns bitte unter [email protected] zur umgehenden Prüfung und Entfernung.

Zugehörige Datensätze

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

Diesen Datensatz verwenden

Auf Discord diskutieren

Datum

vor 2 Jahren

Größe

225.16 MB

Organisation

Zugehörige Datensätze

Nemotron Personas Frankreich (Französischer Datensatz Synthetischer Personas)

vor 2 Monaten

Groundsource Global Flood Events Dataset

vor 3 Monaten

Nemotron-Personas-Brazil Brasilianischer Datensatz Für Synthetische Charaktere

vor 5 Monaten

RoVid-X-Roboter-Videogenerierungsdatensatz

vor 2 Monaten

Patientensegmentierungsdatensatz

vor 5 Monaten

MCIF Multimodal Cross-Language Instruction Following Dataset

vor 6 Monaten

TxT360-3efforts Multi-Task Inference Dataset

vor 6 Monaten

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Gemeinsamer Corpus-zh-chinesischer Public Domain-Datensatz

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Gemeinsamer Corpus-zh-chinesischer Public Domain-Datensatz

Zugehörige Datensätze

Nemotron Personas Frankreich (Französischer Datensatz Synthetischer Personas)

Groundsource Global Flood Events Dataset

Nemotron-Personas-Brazil Brasilianischer Datensatz Für Synthetische Charaktere

RoVid-X-Roboter-Videogenerierungsdatensatz

Patientensegmentierungsdatensatz

MCIF Multimodal Cross-Language Instruction Following Dataset

TxT360-3efforts Multi-Task Inference Dataset

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Gemeinsamer Corpus-zh-chinesischer Public Domain-Datensatz

Zugehörige Datensätze

Nemotron Personas Frankreich (Französischer Datensatz Synthetischer Personas)

Groundsource Global Flood Events Dataset

Nemotron-Personas-Brazil Brasilianischer Datensatz Für Synthetische Charaktere

RoVid-X-Roboter-Videogenerierungsdatensatz

Patientensegmentierungsdatensatz

MCIF Multimodal Cross-Language Instruction Following Dataset

TxT360-3efforts Multi-Task Inference Dataset

KI mit KI entwickeln

HyperAI Newsletters

Zugehörige Datensätze

Nemotron Personas Frankreich (Französischer Datensatz Synthetischer Personas)

Groundsource Global Flood Events Dataset

Nemotron-Personas-Brazil Brasilianischer Datensatz Für Synthetische Charaktere

RoVid-X-Roboter-Videogenerierungsdatensatz

Patientensegmentierungsdatensatz

MCIF Multimodal Cross-Language Instruction Following Dataset

TxT360-3efforts Multi-Task Inference Dataset

Zugehörige Datensätze

Nemotron Personas Frankreich (Französischer Datensatz Synthetischer Personas)

Groundsource Global Flood Events Dataset

Nemotron-Personas-Brazil Brasilianischer Datensatz Für Synthetische Charaktere

RoVid-X-Roboter-Videogenerierungsdatensatz

Patientensegmentierungsdatensatz

MCIF Multimodal Cross-Language Instruction Following Dataset

TxT360-3efforts Multi-Task Inference Dataset