HyperAIHyperAI

Command Palette

Search for a command to run...

Multimodal-Textbook-6.5M Multimodaler Lehrbuchdatensatz

Datum

vor 4 Monaten

Organisation

Paper-URL

arxiv.org

Treten Sie der Discord-Community bei

Bei diesem Datensatz handelt es sich um einen multimodalen Lehrbuchdatensatz, der 2025 von der Alibaba DAMO Academy veröffentlicht wurde. Die relevanten Ergebnisse des Papiers sind:2,5 Jahre Unterricht: Ein multimodales Lehrbuch für das visuelle Sprachtraining“, dessen Ziel darin besteht, das multimodale Vortraining zu verbessern und die Fähigkeit des Modells zu erweitern, verschachtelte visuelle und textuelle Eingaben zu verarbeiten.

Der Datensatz enthält 6,5 Millionen Bilder und 800 Millionen Textdaten aus Lehrvideos. Alle Bilder und Texte stammen aus Online-Lehrvideos (22.000 Unterrichtsstunden) und decken sechs grundlegende Fächer wie Mathematik, Physik und Chemie ab. Sie bieten einen verständlicheren Hintergrund und umfassenderes Wissen für die Bild-Text-Zuordnung.

Beispiel für das Erstellen eines Datensatzes aus einem Tutorial-Video

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp