HyperAIHyperAI

Command Palette

Search for a command to run...

Manuel Multimodal - Ensemble De Données De Manuels Multimodaux De 6,5 Millions

Discuss on Discord

Date

il y a 6 mois

Organization

Paper URL

arxiv.org

Cet ensemble de données est un ensemble de données de manuels multimodaux publié par Alibaba DAMO Academy en 2025. Les résultats pertinents de l'article sont :2,5 ans en classe : un manuel multimodal pour la préformation visuo-langagière", qui vise à améliorer la pré-formation multimodale et à étendre la capacité du modèle à gérer les entrées visuelles et textuelles entrelacées.

L'ensemble de données contient 6,5 millions d'images et 800 millions de données textuelles issues de vidéos pédagogiques. Toutes les images et tous les textes sont extraits de vidéos pédagogiques en ligne (22 000 heures de cours), couvrant six matières fondamentales telles que les mathématiques, la physique et la chimie. Ces données offrent un contexte plus cohérent et des connaissances plus riches pour l'alignement image-texte.

Exemple de création d'un ensemble de données à partir d'une vidéo de tutoriel

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp