HyperAIHyperAI

Command Palette

Search for a command to run...

InfiMM-WebMath-40B Multimodaler Datensatz Zum Mathematischen Denken

Datum

vor einem Jahr

Größe

73.61 GB

Organisation

Chinesische Akademie der Wissenschaften (Chinesische Akademie der Wissenschaften)

Der InfiMM-WebMath-40B-Datensatz wurde 2024 von einem Forschungsteam von ByteDance und der Chinesischen Akademie der Wissenschaften veröffentlicht. Das zugehörige Papier trägt den Titel „InfiMM-WebMath-40B: Fortschrittliches multimodales Vortraining für verbessertes mathematisches Denken".

Bei diesem Datensatz handelt es sich um einen großen multimodalen Open-Source-Datensatz, der speziell für mathematische Denkaufgaben entwickelt wurde. Er enthält 2,4.000 Webseiten, 8,5.000 zugehörige Bild-URLs und 40 Milliarden Token, die alle sorgfältig aus der CommonCrawl-Datenbank (2019–2023) extrahiert und gefiltert wurden. Die Veröffentlichung dieses Datensatzes stellt für die Open-Source-Community eine wertvolle Ressource dar, um die Fähigkeiten multimodaler Large Language Models (MLLMs) im mathematischen Denken zu verbessern.

Der Prozess der Datensatzerstellung umfasst Textextraktion, Sprachfilterung, hochwertige Inhaltsfilterung, Deduplizierung und Bild-URL-Extraktion. Durch diese Schritte wurden die Qualität und Relevanz des Datensatzes sichergestellt. Im Hinblick auf das Modelltraining wird der Datensatz InfiMM-WebMath-40B für weiteres Vortraining verwendet, um die Fähigkeit des Modells zu verbessern, mathematisches Wissen in einem multimodalen Umfeld zu erwerben. Darüber hinaus wurde eine Feinabstimmung der Anweisungen durchgeführt, um die Modellleistung weiter zu verbessern.

InfiMM-WebMath-40B.torrent
Seeding 1Herunterladen 0Abgeschlossen 210Gesamtdownloads 264
  • InfiMM-WebMath-40B/
    • README.md
      1.83 KB
    • README.txt
      3.67 KB
      • data/
        • InfiMM-WebMath-40B.zip
          73.61 GB

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
InfiMM-WebMath-40B Multimodaler Datensatz Zum Mathematischen Denken | Datensätze | HyperAI