HyperAIHyperAI

Command Palette

Search for a command to run...

InfiMM-WebMath-40B Multimodaler Datensatz Zum Mathematischen Denken

Date

vor einem Jahr

Size

73.61 GB

Organization

Chinesische Akademie der Wissenschaften (Chinesische Akademie der Wissenschaften)

Der InfiMM-WebMath-40B-Datensatz wurde 2024 von einem Forschungsteam von ByteDance und der Chinesischen Akademie der Wissenschaften veröffentlicht. Das zugehörige Papier trägt den Titel „InfiMM-WebMath-40B: Fortschrittliches multimodales Vortraining für verbessertes mathematisches Denken".

Bei diesem Datensatz handelt es sich um einen großen multimodalen Open-Source-Datensatz, der speziell für mathematische Denkaufgaben entwickelt wurde. Er enthält 2,4.000 Webseiten, 8,5.000 zugehörige Bild-URLs und 40 Milliarden Token, die alle sorgfältig aus der CommonCrawl-Datenbank (2019–2023) extrahiert und gefiltert wurden. Die Veröffentlichung dieses Datensatzes stellt für die Open-Source-Community eine wertvolle Ressource dar, um die Fähigkeiten multimodaler Large Language Models (MLLMs) im mathematischen Denken zu verbessern.

Der Prozess der Datensatzerstellung umfasst Textextraktion, Sprachfilterung, hochwertige Inhaltsfilterung, Deduplizierung und Bild-URL-Extraktion. Durch diese Schritte wurden die Qualität und Relevanz des Datensatzes sichergestellt. Im Hinblick auf das Modelltraining wird der Datensatz InfiMM-WebMath-40B für weiteres Vortraining verwendet, um die Fähigkeit des Modells zu verbessern, mathematisches Wissen in einem multimodalen Umfeld zu erwerben. Darüber hinaus wurde eine Feinabstimmung der Anweisungen durchgeführt, um die Modellleistung weiter zu verbessern.

InfiMM-WebMath-40B.torrent
Seeding 1Downloading 0Completed 216Total Downloads 306
  • InfiMM-WebMath-40B/
    • README.md
      1.83 KB
    • README.txt
      3.67 KB
      • data/
        • InfiMM-WebMath-40B.zip
          73.61 GB

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp