Ensemble De Données De Référence Pour La Génération De Vidéos Éducatives MMMC
Date
Paper URL
License
MIT
MMMC est un ensemble de données de référence de génération de vidéos éducatives multidisciplinaires à grande échelle pour la génération de vidéos d'enseignement publié par le Show Lab de l'Université nationale de Singapour en 2025. Les résultats de l'article associé sont «Code2Video : un paradigme centré sur le code pour la création de vidéos éducatives", qui vise à fournir des ressources de formation et d'évaluation de haute qualité pour les modèles d'intelligence artificielle éducative et à soutenir la recherche sur la génération automatique de vidéos d'enseignement professionnelles à partir de code structuré et de contenu pédagogique.
Cet ensemble de données contient 117 vidéos pédagogiques complètes couvrant 13 domaines, dont le calcul, la géométrie, la théorie des probabilités et les réseaux de neurones. La durée moyenne d'une vidéo complète est de 1 014 secondes (environ 16,9 minutes), tandis que celle d'une vidéo segmentée est de 201 secondes (environ 3,35 minutes). Les données proviennent de la vidéothèque éducative YouTube de 3Blue1Brown (3B1B), réputée pour son enseignement percutant et ses animations de haute qualité. MMMC a été élaboré selon deux critères : la pertinence pédagogique, c'est-à-dire la valeur pédagogique de chaque sujet ; et un support pratique, chaque concept correspondant à une référence Manim de haute qualité pour garantir la visualisation et la reproductibilité.
Structure du jeu de données
- Fichiers de données
- metadata.jsonl : le fichier de métadonnées principal contenant des informations structurées pour chaque instance vidéo.
- Chaque entrée dans metadata.jsonl contient :
- id : identifiant unique de la tranche vidéo.
- Catégorie : Catégorie de sujet de haut niveau (par exemple, mathématiques, physique, informatique).
- Vidéo : Le chemin du fichier du clip vidéo éducatif correspondant.
- main_topics : Liste des sujets d'enseignement.
- num_slices : Le nombre de tranches vidéo dans lesquelles la conférence est divisée.
- reference_image : une image de référence clé liée au sujet (facultatif).
Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.