Datum

vor einem Jahr

Paper-URL

Kernteilmenge des Datensatzes:

OpenCulture: Gemeinfreie Bücher und Zeitungen (wie Wikisource, Project Gutenberg), einschließlich OCR-korrigierter historischer Dokumente.
OpenGovernment: Rechtliche und administrative Dokumente (z. B. SEC-Berichte, WTO-Anmeldungen, Daten des Europäischen Parlaments).
OpenSource: Hochwertiger GitHub-Code, die besten 80%-Einreichungen mit hoher Qualität, geprüft vom ArmoRM-Tool.
OpenScience: Akademische Ressourcen wie OpenAlex, die strukturierte Informationen wie Formeln und Diagramme enthalten.
OpenWeb: Webtexte wie Wikipedia, YouTube Commons, Stack Exchange usw.
OpenSemantic: Natürliche Sprachtranskription semantischer Tripel aus Wikidata, unterstützt über 300 Sprachen.

Dieser Datensatz wurde von Community-Nutzern beigesteuert und dient ausschließlich Bildungs- und Informationszwecken. Falls Inhalte eine Urheberrechtsverletzung darstellen, kontaktieren Sie uns bitte unter [email protected] zur umgehenden Prüfung und Entfernung.

Zugehörige Datensätze

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

Auf Discord diskutieren

Datum

vor einem Jahr

Paper-URL

arxiv.org

Kernteilmenge des Datensatzes:

OpenCulture: Gemeinfreie Bücher und Zeitungen (wie Wikisource, Project Gutenberg), einschließlich OCR-korrigierter historischer Dokumente.
OpenGovernment: Rechtliche und administrative Dokumente (z. B. SEC-Berichte, WTO-Anmeldungen, Daten des Europäischen Parlaments).
OpenSource: Hochwertiger GitHub-Code, die besten 80%-Einreichungen mit hoher Qualität, geprüft vom ArmoRM-Tool.
OpenScience: Akademische Ressourcen wie OpenAlex, die strukturierte Informationen wie Formeln und Diagramme enthalten.
OpenWeb: Webtexte wie Wikipedia, YouTube Commons, Stack Exchange usw.
OpenSemantic: Natürliche Sprachtranskription semantischer Tripel aus Wikidata, unterstützt über 300 Sprachen.

Zugehörige Datensätze

DRACO Cross-Domain Deep Research Benchmark-Datensatz

vor 2 Monaten

ToolACE-Datensatz Für Lerndialoge Mit Komplexen Werkzeugen

vor 3 Monaten

Sutra 10B Vortrainings- Und Trainingsdatensatz

vor 3 Monaten

Groundsource Global Flood Events Dataset

vor 3 Monaten

CHIMERA Allgemeines Inferenz-Synthetik-Datensatz

vor 2 Tagen

THINGS-EEG EEG-Datensatz

vor 5 Monaten

THINGS-MEG-Magnetoenzephalographie-Datensatz

vor 5 Monaten

THINGS-fMRI-Datensatz Für Funktionelle Magnetresonanztomographie

vor 5 Monaten

CL-bench Context Learning Evaluation Benchmark-Datensatz

vor 4 Monaten

RoVid-X-Roboter-Videogenerierungsdatensatz

vor 2 Tagen

Nemotron-Math-v2 Datensatz Für Mathematische Inferenz

vor 2 Tagen

GroundingME-Datensatz Zur Evaluierung Des Verständnisses Komplexer Szenen

vor 2 Tagen

TxT360-3efforts Multi-Task Inference Dataset

vor 2 Tagen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Common Corpus Großer Offener Textdatensatz

Kernteilmenge des Datensatzes:

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Common Corpus Großer Offener Textdatensatz

Kernteilmenge des Datensatzes:

Zugehörige Datensätze

DRACO Cross-Domain Deep Research Benchmark-Datensatz

ToolACE-Datensatz Für Lerndialoge Mit Komplexen Werkzeugen

Sutra 10B Vortrainings- Und Trainingsdatensatz

Groundsource Global Flood Events Dataset

CHIMERA Allgemeines Inferenz-Synthetik-Datensatz

THINGS-EEG EEG-Datensatz

THINGS-MEG-Magnetoenzephalographie-Datensatz

THINGS-fMRI-Datensatz Für Funktionelle Magnetresonanztomographie

CL-bench Context Learning Evaluation Benchmark-Datensatz

RoVid-X-Roboter-Videogenerierungsdatensatz

Nemotron-Math-v2 Datensatz Für Mathematische Inferenz

GroundingME-Datensatz Zur Evaluierung Des Verständnisses Komplexer Szenen

TxT360-3efforts Multi-Task Inference Dataset

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Common Corpus Großer Offener Textdatensatz

Kernteilmenge des Datensatzes:

Zugehörige Datensätze

DRACO Cross-Domain Deep Research Benchmark-Datensatz

ToolACE-Datensatz Für Lerndialoge Mit Komplexen Werkzeugen

Sutra 10B Vortrainings- Und Trainingsdatensatz

Groundsource Global Flood Events Dataset

CHIMERA Allgemeines Inferenz-Synthetik-Datensatz

THINGS-EEG EEG-Datensatz

THINGS-MEG-Magnetoenzephalographie-Datensatz

THINGS-fMRI-Datensatz Für Funktionelle Magnetresonanztomographie

CL-bench Context Learning Evaluation Benchmark-Datensatz

RoVid-X-Roboter-Videogenerierungsdatensatz

Nemotron-Math-v2 Datensatz Für Mathematische Inferenz

GroundingME-Datensatz Zur Evaluierung Des Verständnisses Komplexer Szenen

TxT360-3efforts Multi-Task Inference Dataset

KI mit KI entwickeln

HyperAI Newsletters

Zugehörige Datensätze

DRACO Cross-Domain Deep Research Benchmark-Datensatz

ToolACE-Datensatz Für Lerndialoge Mit Komplexen Werkzeugen

Sutra 10B Vortrainings- Und Trainingsdatensatz

Groundsource Global Flood Events Dataset

CHIMERA Allgemeines Inferenz-Synthetik-Datensatz

THINGS-EEG EEG-Datensatz

THINGS-MEG-Magnetoenzephalographie-Datensatz

THINGS-fMRI-Datensatz Für Funktionelle Magnetresonanztomographie

CL-bench Context Learning Evaluation Benchmark-Datensatz

RoVid-X-Roboter-Videogenerierungsdatensatz

Nemotron-Math-v2 Datensatz Für Mathematische Inferenz

GroundingME-Datensatz Zur Evaluierung Des Verständnisses Komplexer Szenen

TxT360-3efforts Multi-Task Inference Dataset

Zugehörige Datensätze

DRACO Cross-Domain Deep Research Benchmark-Datensatz

ToolACE-Datensatz Für Lerndialoge Mit Komplexen Werkzeugen

Sutra 10B Vortrainings- Und Trainingsdatensatz

Groundsource Global Flood Events Dataset

CHIMERA Allgemeines Inferenz-Synthetik-Datensatz

THINGS-EEG EEG-Datensatz

THINGS-MEG-Magnetoenzephalographie-Datensatz

THINGS-fMRI-Datensatz Für Funktionelle Magnetresonanztomographie

CL-bench Context Learning Evaluation Benchmark-Datensatz

RoVid-X-Roboter-Videogenerierungsdatensatz

Nemotron-Math-v2 Datensatz Für Mathematische Inferenz

GroundingME-Datensatz Zur Evaluierung Des Verständnisses Komplexer Szenen

TxT360-3efforts Multi-Task Inference Dataset