Datum

vor 2 Jahren

Größe

73.61 GB

Organisation

Tags

Multimodal

LLM

Mathematik

Multimodale Darstellung

Modelltraining

Der InfiMM-WebMath-40B-Datensatz wurde 2024 von einem Forschungsteam von ByteDance und der Chinesischen Akademie der Wissenschaften veröffentlicht. Das zugehörige Papier trägt den Titel „InfiMM-WebMath-40B: Fortschrittliches multimodales Vortraining für verbessertes mathematisches Denken". Bei diesem Datensatz handelt es sich um einen großen multimodalen Open-Source-Datensatz, der speziell für mathematische Denkaufgaben entwickelt wurde. Er enthält 2,4.000 Webseiten, 8,5.000 zugehörige Bild-URLs und 40 Milliarden Token, die alle sorgfältig aus der CommonCrawl-Datenbank (2019–2023) extrahiert und gefiltert wurden. Die Veröffentlichung dieses Datensatzes stellt für die Open-Source-Community eine wertvolle Ressource dar, um die Fähigkeiten multimodaler Large Language Models (MLLMs) im mathematischen Denken zu verbessern. Der Prozess der Datensatzerstellung umfasst Textextraktion, Sprachfilterung, hochwertige Inhaltsfilterung, Deduplizierung und Bild-URL-Extraktion. Durch diese Schritte wurden die Qualität und Relevanz des Datensatzes sichergestellt. Im Hinblick auf das Modelltraining wird der Datensatz InfiMM-WebMath-40B für weiteres Vortraining verwendet, um die Fähigkeit des Modells zu verbessern, mathematisches Wissen in einem multimodalen Umfeld zu erwerben. Darüber hinaus wurde eine Feinabstimmung der Anweisungen durchgeführt, um die Modellleistung weiter zu verbessern.

InfiMM-WebMath-40B.torrent

Seeding 1Wird heruntergeladen 0Abgeschlossen 239Gesamtdownloads 334

InfiMM-WebMath-40B/
- README.md
  1.83 KB
- README.txt
  3.67 KB

Dieser Datensatz wurde von Community-Nutzern beigesteuert und dient ausschließlich Bildungs- und Informationszwecken. Falls Inhalte eine Urheberrechtsverletzung darstellen, kontaktieren Sie uns bitte unter [email protected] zur umgehenden Prüfung und Entfernung.

Zugehörige Datensätze

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

Diesen Datensatz verwenden

Auf Discord diskutieren

Datum

vor 2 Jahren

Größe

73.61 GB

Organisation

Zugehörige Datensätze

GPT-5.4-Schritt-für-Schritt-Schlussfolgerungsdatensatz

vor 2 Monaten

Sutra 10B Vortrainings- Und Trainingsdatensatz

vor 3 Monaten

CHIMERA Allgemeines Inferenz-Synthetik-Datensatz

vor 4 Monaten

THINGS-EEG EEG-Datensatz

vor 5 Monaten

THINGS-MEG-Magnetoenzephalographie-Datensatz

vor 5 Monaten

THINGS-fMRI-Datensatz Für Funktionelle Magnetresonanztomographie

vor 5 Monaten

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

InfiMM-WebMath-40B Multimodaler Datensatz Zum Mathematischen Denken

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

InfiMM-WebMath-40B Multimodaler Datensatz Zum Mathematischen Denken

Zugehörige Datensätze

GPT-5.4-Schritt-für-Schritt-Schlussfolgerungsdatensatz

Sutra 10B Vortrainings- Und Trainingsdatensatz

CHIMERA Allgemeines Inferenz-Synthetik-Datensatz

THINGS-EEG EEG-Datensatz

THINGS-MEG-Magnetoenzephalographie-Datensatz

THINGS-fMRI-Datensatz Für Funktionelle Magnetresonanztomographie

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

InfiMM-WebMath-40B Multimodaler Datensatz Zum Mathematischen Denken

Zugehörige Datensätze

GPT-5.4-Schritt-für-Schritt-Schlussfolgerungsdatensatz

Sutra 10B Vortrainings- Und Trainingsdatensatz

CHIMERA Allgemeines Inferenz-Synthetik-Datensatz

THINGS-EEG EEG-Datensatz

THINGS-MEG-Magnetoenzephalographie-Datensatz

THINGS-fMRI-Datensatz Für Funktionelle Magnetresonanztomographie

KI mit KI entwickeln

HyperAI Newsletters

Zugehörige Datensätze

GPT-5.4-Schritt-für-Schritt-Schlussfolgerungsdatensatz

Sutra 10B Vortrainings- Und Trainingsdatensatz

CHIMERA Allgemeines Inferenz-Synthetik-Datensatz

THINGS-EEG EEG-Datensatz

THINGS-MEG-Magnetoenzephalographie-Datensatz

THINGS-fMRI-Datensatz Für Funktionelle Magnetresonanztomographie

Zugehörige Datensätze

GPT-5.4-Schritt-für-Schritt-Schlussfolgerungsdatensatz

Sutra 10B Vortrainings- Und Trainingsdatensatz

CHIMERA Allgemeines Inferenz-Synthetik-Datensatz

THINGS-EEG EEG-Datensatz

THINGS-MEG-Magnetoenzephalographie-Datensatz

THINGS-fMRI-Datensatz Für Funktionelle Magnetresonanztomographie