Command Palette
Search for a command to run...
Multimodal-Textbook-6.5M Multimodaler Lehrbuchdatensatz
Bei diesem Datensatz handelt es sich um einen multimodalen Lehrbuchdatensatz, der 2025 von der Alibaba DAMO Academy veröffentlicht wurde. Die relevanten Ergebnisse des Papiers sind:2,5 Jahre Unterricht: Ein multimodales Lehrbuch für das visuelle Sprachtraining“, dessen Ziel darin besteht, das multimodale Vortraining zu verbessern und die Fähigkeit des Modells zu erweitern, verschachtelte visuelle und textuelle Eingaben zu verarbeiten.
Der Datensatz enthält 6,5 Millionen Bilder und 800 Millionen Textdaten aus Lehrvideos. Alle Bilder und Texte stammen aus Online-Lehrvideos (22.000 Unterrichtsstunden) und decken sechs grundlegende Fächer wie Mathematik, Physik und Chemie ab. Sie bieten einen verständlicheren Hintergrund und umfassenderes Wissen für die Bild-Text-Zuordnung.

Beispiel für das Erstellen eines Datensatzes aus einem Tutorial-Video
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.