InfiMM-WebMath-40B Multimodaler Datensatz Zum Mathematischen Denken
Datum
Größe
Veröffentlichungs-URL
Kategorien
Der InfiMM-WebMath-40B-Datensatz wurde 2024 von einem Forschungsteam von ByteDance und der Chinesischen Akademie der Wissenschaften veröffentlicht. Das zugehörige Papier trägt den Titel „InfiMM-WebMath-40B: Fortschrittliches multimodales Vortraining für verbessertes mathematisches Denken".
Bei diesem Datensatz handelt es sich um einen großen multimodalen Open-Source-Datensatz, der speziell für mathematische Denkaufgaben entwickelt wurde. Er enthält 2,4.000 Webseiten, 8,5.000 zugehörige Bild-URLs und 40 Milliarden Token, die alle sorgfältig aus der CommonCrawl-Datenbank (2019–2023) extrahiert und gefiltert wurden. Die Veröffentlichung dieses Datensatzes stellt für die Open-Source-Community eine wertvolle Ressource dar, um die Fähigkeiten multimodaler Large Language Models (MLLMs) im mathematischen Denken zu verbessern.
Der Prozess der Datensatzerstellung umfasst Textextraktion, Sprachfilterung, hochwertige Inhaltsfilterung, Deduplizierung und Bild-URL-Extraktion. Durch diese Schritte wurden die Qualität und Relevanz des Datensatzes sichergestellt. Im Hinblick auf das Modelltraining wird der Datensatz InfiMM-WebMath-40B für weiteres Vortraining verwendet, um die Fähigkeit des Modells zu verbessern, mathematisches Wissen in einem multimodalen Umfeld zu erwerben. Darüber hinaus wurde eine Feinabstimmung der Anweisungen durchgeführt, um die Modellleistung weiter zu verbessern.