مجموعة بيانات معيارية لتوليد الفيديو التعليمي MMMC
MMMC هي مجموعة بيانات مرجعية واسعة النطاق ومتعددة التخصصات لتوليد مقاطع الفيديو التعليمية، أصدرها مختبر Show التابع للجامعة الوطنية في سنغافورة في عام 2025. نتائج الورقة ذات الصلة هي "Code2Video: نموذج يركز على الكود لتوليد مقاطع الفيديو التعليمية"، والذي يهدف إلى توفير موارد تدريب وتقييم عالية الجودة لنماذج الذكاء الاصطناعي التعليمية، ودعم الأبحاث حول إنشاء مقاطع فيديو تعليمية احترافية تلقائيًا من التعليمات البرمجية المنظمة ومحتوى التدريس.
تحتوي هذه المجموعة من البيانات على 117 فيديو تعليميًا كاملاً، تغطي 13 مجالًا دراسيًا، بما في ذلك حساب التفاضل والتكامل، والهندسة، ونظرية الاحتمالات، والشبكات العصبية. يبلغ متوسط طول الفيديو الكامل 1014 ثانية (حوالي 16.9 دقيقة)، بينما يبلغ متوسط طول الفيديو المجزأ 201 ثانية (حوالي 3.35 دقيقة). مصدر البيانات هو مكتبة 3Blue1Brown (3B1B) التعليمية على يوتيوب، المشهورة بتدريسها المؤثر وإنتاجها المتقن للرسوم المتحركة. بُني MMMC بناءً على معيارين: الصلة التعليمية، أي أن لكل موضوع قيمة تربوية؛ والدعم العملي، حيث يتوافق كل مفهوم مع مرجع Manim عالي الجودة لضمان التصور وإمكانية إعادة الإنتاج.
بنية مجموعة البيانات
- ملفات البيانات
- metadata.jsonl: ملف البيانات الوصفية الرئيسي الذي يحتوي على معلومات منظمة لكل مثيل فيديو.
- يحتوي كل إدخال في metadata.jsonl على:
- المعرف: معرف فريد لشريحة الفيديو.
- الفئة: فئة موضوعية عالية المستوى (على سبيل المثال، الرياضيات، والفيزياء، وعلوم الكمبيوتر).
- الفيديو: مسار الملف لمقطع الفيديو التعليمي المقابل.
- main_topics: قائمة مواضيع التدريس.
- num_slices: عدد شرائح الفيديو التي ينقسم إليها المحاضرة.
- reference_image: صورة مرجعية رئيسية مرتبطة بالموضوع (اختياري).
Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.