Datum

vor einem Jahr

Größe

231.15 MB

Lizenz

Apache 2.0

* Dieser Datensatz unterstützt die Online-Nutzung.Klicken Sie hier, um zu springen.

Dieser Datensatz ist ein chinesischer Open-Source-destillierter vollwertiger R1-Datensatz. Der Datensatz enthält nicht nur mathematische Daten, sondern auch eine große Menge allgemeiner Daten mit einem Gesamtumfang von 110 KB. Der Grund für die Bereitstellung dieses Datensatzes als Open Source liegt darin, dass der Effekt von R1 sehr stark ist und das kleine Modell, das auf den destillierten Daten von R1 SFT basiert, ebenfalls einen starken Effekt zeigt. Eine Suche ergab jedoch, dass es sich bei den meisten Open-Source-R1-destillierten Datensätzen um englische Datensätze handelt. Gleichzeitig zeigt der R1-Bericht, dass im Destillationsmodell auch einige allgemeine Szenario-Datensätze verwendet werden. Damit jeder die Wirkung des R1-Destillationsmodells besser reproduzieren kann, stellen wir den chinesischen Datensatz hiermit als Open Source zur Verfügung. Die Datenverteilung in diesem chinesischen Datensatz ist wie folgt:

Mathematik: 36.987 Proben insgesamt,
Prüfung: 2.440 Proben insgesamt,
STEM: 12.000 Proben insgesamt,
Allgemein: Insgesamt 58.573, einschließlich Retarded Bar, Logical Reasoning, Xiaohongshu, Zhihu, Chat usw. Feldbeschreibung:
Eingabe: Eingabe
reasoning_content: Denken
Inhalt: Ausgabe
repo_name: Datenquelle

Zitat

@misc{Chinese-Data-Distill-From-R1, Autoren: {Cong Liu, Zhong Wang, ShengYu Shen, Jialiang Peng, Xiaoli Zhang, ZhenDong Du, YaFang Wang} title = {Der chinesische Datensatz, extrahiert aus DeepSeek-R1-671b}, Jahr = {2025}, Herausgeber = {HuggingFace}, howpublished = {\url{https://huggingface.co/datasets/Congliu/Chinese-DeepSeek-R1-Distill-data-110k}}, }

Chinese-DeepSeek-R1-Distill-data-110k.torrent

Seeding 1Wird heruntergeladen 0Abgeschlossen 235Gesamtdownloads 532

Chinese-DeepSeek-R1-Distill-data-110k/
- README.md
  1.74 KB
- README.txt
  3.48 KB

Dieser Datensatz wurde von Community-Nutzern beigesteuert und dient ausschließlich Bildungs- und Informationszwecken. Falls Inhalte eine Urheberrechtsverletzung darstellen, kontaktieren Sie uns bitte unter [email protected] zur umgehenden Prüfung und Entfernung.

Zugehörige Datensätze

FigureBench-Benchmark-Datensatz Zur Generierung Wissenschaftlicher Illustrationen

vor 7 Tagen

SMOL Multilingual Translation Parallel Dataset

vor einem Monat

chi-bench Medical Intelligent Agent Benchmark Evaluation Dataset

vor 13 Tagen

ViMU-Datensatz Zum Verständnis Von Videometaphern

vor einem Monat

MemLens Multimodal Long Context Benchmark-Datensatz

vor einem Monat

Brustkrebs: Multimodaler Fusionsdatensatz

vor 2 Monaten

OpenMementos Kontextspeicher Komprimierter Datensatz

vor 2 Monaten

BRIGHT-Datensatz Zur Bewertung Von Katastrophengebäuden

vor 8 Tagen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

Diesen Datensatz verwenden

Auf Discord diskutieren

Datum

vor einem Jahr

Größe

231.15 MB

Lizenz

Apache 2.0

* Dieser Datensatz unterstützt die Online-Nutzung.Klicken Sie hier, um zu springen.

Mathematik: 36.987 Proben insgesamt,
Prüfung: 2.440 Proben insgesamt,
STEM: 12.000 Proben insgesamt,
Allgemein: Insgesamt 58.573, einschließlich Retarded Bar, Logical Reasoning, Xiaohongshu, Zhihu, Chat usw. Feldbeschreibung:
Eingabe: Eingabe
reasoning_content: Denken
Inhalt: Ausgabe
repo_name: Datenquelle

Zitat

Chinese-DeepSeek-R1-Distill-data-110k.torrent

Seeding 1Wird heruntergeladen 0Abgeschlossen 235Gesamtdownloads 532

Chinese-DeepSeek-R1-Distill-data-110k/
- README.md
  1.74 KB
- README.txt
  3.48 KB

Zugehörige Datensätze

MAKIEVAL Mehrsprachiger Datensatz Zur Bewertung Kulturellen Wissens

vor 2 Tagen

SAM 3D Artist Objects 3D-Objektrekonstruktionsdatensatz

vor 5 Tagen

Nemotron-SFT-Math-v4 Mathematische Inferenz SFT-Datensatz

vor 7 Tagen

FigureBench-Benchmark-Datensatz Zur Generierung Wissenschaftlicher Illustrationen

vor 7 Tagen

SMOL Multilingual Translation Parallel Dataset

vor einem Monat

chi-bench Medical Intelligent Agent Benchmark Evaluation Dataset

vor 13 Tagen

ViMU-Datensatz Zum Verständnis Von Videometaphern

vor einem Monat

MemLens Multimodal Long Context Benchmark-Datensatz

vor einem Monat

Brustkrebs: Multimodaler Fusionsdatensatz

vor 2 Monaten

OpenMementos Kontextspeicher Komprimierter Datensatz

vor 2 Monaten

BRIGHT-Datensatz Zur Bewertung Von Katastrophengebäuden

vor 8 Tagen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Chinesische DeepSeek R1-Destillationsdaten. 110.000 Chinesische Daten Basierend Auf Dem DeepSeek-R1-Destillationsdatensatz

* Dieser Datensatz unterstützt die Online-Nutzung.Klicken Sie hier, um zu springen.

Zitat

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Chinesische DeepSeek R1-Destillationsdaten. 110.000 Chinesische Daten Basierend Auf Dem DeepSeek-R1-Destillationsdatensatz

* Dieser Datensatz unterstützt die Online-Nutzung.Klicken Sie hier, um zu springen.

Zitat

Zugehörige Datensätze

MAKIEVAL Mehrsprachiger Datensatz Zur Bewertung Kulturellen Wissens

SAM 3D Artist Objects 3D-Objektrekonstruktionsdatensatz

Nemotron-SFT-Math-v4 Mathematische Inferenz SFT-Datensatz

FigureBench-Benchmark-Datensatz Zur Generierung Wissenschaftlicher Illustrationen

SMOL Multilingual Translation Parallel Dataset

chi-bench Medical Intelligent Agent Benchmark Evaluation Dataset

ViMU-Datensatz Zum Verständnis Von Videometaphern

MemLens Multimodal Long Context Benchmark-Datensatz

Brustkrebs: Multimodaler Fusionsdatensatz

OpenMementos Kontextspeicher Komprimierter Datensatz

BRIGHT-Datensatz Zur Bewertung Von Katastrophengebäuden

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Chinesische DeepSeek R1-Destillationsdaten. 110.000 Chinesische Daten Basierend Auf Dem DeepSeek-R1-Destillationsdatensatz

* Dieser Datensatz unterstützt die Online-Nutzung.Klicken Sie hier, um zu springen.

Zitat

Zugehörige Datensätze

MAKIEVAL Mehrsprachiger Datensatz Zur Bewertung Kulturellen Wissens

SAM 3D Artist Objects 3D-Objektrekonstruktionsdatensatz

Nemotron-SFT-Math-v4 Mathematische Inferenz SFT-Datensatz

FigureBench-Benchmark-Datensatz Zur Generierung Wissenschaftlicher Illustrationen

SMOL Multilingual Translation Parallel Dataset

chi-bench Medical Intelligent Agent Benchmark Evaluation Dataset

ViMU-Datensatz Zum Verständnis Von Videometaphern

MemLens Multimodal Long Context Benchmark-Datensatz

Brustkrebs: Multimodaler Fusionsdatensatz

OpenMementos Kontextspeicher Komprimierter Datensatz

BRIGHT-Datensatz Zur Bewertung Von Katastrophengebäuden

KI mit KI entwickeln

HyperAI Newsletters

Zugehörige Datensätze

MAKIEVAL Mehrsprachiger Datensatz Zur Bewertung Kulturellen Wissens

SAM 3D Artist Objects 3D-Objektrekonstruktionsdatensatz

Nemotron-SFT-Math-v4 Mathematische Inferenz SFT-Datensatz

FigureBench-Benchmark-Datensatz Zur Generierung Wissenschaftlicher Illustrationen

SMOL Multilingual Translation Parallel Dataset

chi-bench Medical Intelligent Agent Benchmark Evaluation Dataset

ViMU-Datensatz Zum Verständnis Von Videometaphern

MemLens Multimodal Long Context Benchmark-Datensatz

Brustkrebs: Multimodaler Fusionsdatensatz

OpenMementos Kontextspeicher Komprimierter Datensatz

BRIGHT-Datensatz Zur Bewertung Von Katastrophengebäuden

Zugehörige Datensätze

MAKIEVAL Mehrsprachiger Datensatz Zur Bewertung Kulturellen Wissens

SAM 3D Artist Objects 3D-Objektrekonstruktionsdatensatz

Nemotron-SFT-Math-v4 Mathematische Inferenz SFT-Datensatz

FigureBench-Benchmark-Datensatz Zur Generierung Wissenschaftlicher Illustrationen

SMOL Multilingual Translation Parallel Dataset

chi-bench Medical Intelligent Agent Benchmark Evaluation Dataset

ViMU-Datensatz Zum Verständnis Von Videometaphern

MemLens Multimodal Long Context Benchmark-Datensatz

Brustkrebs: Multimodaler Fusionsdatensatz

OpenMementos Kontextspeicher Komprimierter Datensatz

BRIGHT-Datensatz Zur Bewertung Von Katastrophengebäuden