HyperAIHyperAI

Command Palette

Search for a command to run...

Manuel Multimodal - Ensemble De Données De Manuels Multimodaux De 6,5 Millions

Date

il y a 4 mois

Organisation

URL de l'article

arxiv.org

Rejoignez la communauté Discord

Cet ensemble de données est un ensemble de données de manuels multimodaux publié par Alibaba DAMO Academy en 2025. Les résultats pertinents de l'article sont :2,5 ans en classe : un manuel multimodal pour la préformation visuo-langagière", qui vise à améliorer la pré-formation multimodale et à étendre la capacité du modèle à gérer les entrées visuelles et textuelles entrelacées.

L'ensemble de données contient 6,5 millions d'images et 800 millions de données textuelles issues de vidéos pédagogiques. Toutes les images et tous les textes sont extraits de vidéos pédagogiques en ligne (22 000 heures de cours), couvrant six matières fondamentales telles que les mathématiques, la physique et la chimie. Ces données offrent un contexte plus cohérent et des connaissances plus riches pour l'alignement image-texte.

Exemple de création d'un ensemble de données à partir d'une vidéo de tutoriel

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Manuel Multimodal - Ensemble De Données De Manuels Multimodaux De 6,5 Millions | Ensembles de données | HyperAI