HyperAIHyperAI

Command Palette

Search for a command to run...

MINT-1T Text-Bild-Paar Multimodaler Datensatz

Datum

vor einem Jahr

Organisation

Stanford Universität
Universität von Kalifornien, Berkeley
Universität von Washington

Veröffentlichungs-URL

github.com

Paper-URL

arxiv.org

Treten Sie der Discord-Community bei

Der MINT-1T-Datensatz ist ein multimodaler Datensatz, der 2024 gemeinsam von Salesforce AI und mehreren Institutionen als Open Source bereitgestellt wurde. Sein Umfang wurde erheblich erweitert und umfasst nun eine Billion Text-Tags und 3,4 Milliarden Bilder. Damit ist er zehnmal so groß wie der bisher größte Open-Source-Datensatz. Die relevanten Papierergebnisse sind "MINT-1T: Skalierung multimodaler Open-Source-Daten um das Zehnfache: Ein multimodaler Datensatz mit einer Billion TokenDer Aufbau dieses Datensatzes folgt den Grundprinzipien von Umfang und Vielfalt. Er umfasst nicht nur HTML-Dokumente, sondern auch PDF-Dokumente und ArXiv-Artikel. Diese Vielfalt verbessert die Abdeckung wissenschaftlicher Dokumente erheblich. Die Datenquellen von MINT-1T sind vielfältig und umfassen unter anderem Webseiten, wissenschaftliche Artikel und Dokumente, die bisher in multimodalen Datensätzen nicht vollständig genutzt wurden.

In Bezug auf Modellexperimente schneidet das auf MINT-1T vortrainierte multimodale Modell XGen-MM bei den Benchmarks zur Bildbeschreibung und visuellen Fragebeantwortung gut ab und übertrifft den bisherigen führenden Datensatz OBELICS. Durch Analysen hat MINT-1T erhebliche Verbesserungen hinsichtlich Umfang, Datenquellenvielfalt und Qualität erzielt, insbesondere bei PDF- und ArXiv-Dokumenten, die eine deutlich größere Durchschnittslänge und eine höhere Bilddichte aufweisen. Darüber hinaus zeigen die Ergebnisse der Themenmodellierung von Dokumenten durch das LDA-Modell, dass die HTML-Teilmenge von MINT-1T eine breitere Domänenabdeckung aufweist, während sich die PDF-Teilmenge hauptsächlich auf die Bereiche Wissenschaft und Technologie konzentriert.

MINT-1T zeigt dank der Beliebtheit dieser Bereiche in ArXiv- und PDF-Dokumenten eine hervorragende Leistung bei zahlreichen Aufgaben, insbesondere in den Bereichen Wissenschaft und Technologie. Die kontextbezogene Lernleistung der Modelle wird anhand unterschiedlicher Beispielzahlen bewertet. Die auf MINT-1T trainierten Modelle übertreffen das Basismodell OBELICS bei allen Beispielzahlen. Die Veröffentlichung von MINT-1T stellt Forschern und Entwicklern nicht nur einen großen multimodalen Datensatz zur Verfügung, sondern bietet auch neue Herausforderungen und Möglichkeiten für das Training und die Evaluierung multimodaler Modelle.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
MINT-1T Text-Bild-Paar Multimodaler Datensatz | Datensätze | HyperAI