HyperAIHyperAI

Command Palette

Search for a command to run...

Multimodal-Textbook-6.5M Multimodaler Lehrbuchdatensatz

Discuss on Discord

Date

vor 6 Monaten

Organization

Paper URL

arxiv.org

Bei diesem Datensatz handelt es sich um einen multimodalen Lehrbuchdatensatz, der 2025 von der Alibaba DAMO Academy veröffentlicht wurde. Die relevanten Ergebnisse des Papiers sind:2,5 Jahre Unterricht: Ein multimodales Lehrbuch für das visuelle Sprachtraining“, dessen Ziel darin besteht, das multimodale Vortraining zu verbessern und die Fähigkeit des Modells zu erweitern, verschachtelte visuelle und textuelle Eingaben zu verarbeiten.

Der Datensatz enthält 6,5 Millionen Bilder und 800 Millionen Textdaten aus Lehrvideos. Alle Bilder und Texte stammen aus Online-Lehrvideos (22.000 Unterrichtsstunden) und decken sechs grundlegende Fächer wie Mathematik, Physik und Chemie ab. Sie bieten einen verständlicheren Hintergrund und umfassenderes Wissen für die Bild-Text-Zuordnung.

Beispiel für das Erstellen eines Datensatzes aus einem Tutorial-Video

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp