HyperAIHyperAI
منذ 18 أيام

التعلم المقابل لبروتوتيبات الفئات لتصنيف مقاطع الفيديو التعليمية متعددة التصنيفات والدقيقة

{Mubarak Shah, Todd Grindal, Ajay Divakaran, Madeline Cincebeaux, Sarah Gerard, Sujeong Kim, Claire Christensen, Anirban Roy, Rohit Gupta}
التعلم المقابل لبروتوتيبات الفئات لتصنيف مقاطع الفيديو التعليمية متعددة التصنيفات والدقيقة
الملخص

يُعد النمو الأخير في استهلاك الأطفال للوسائط الرقمية خلال مرحلة الطفولة المبكرة ضرورة ملحة لتطوير أدوات تعتمد على البيانات تمكن المربين من فلترة المحتوى التعليمي المناسب للطلاب الصغار. تقدم هذه الورقة منهجًا للكشف عن المحتوى التعليمي في مقاطع الفيديو عبر الإنترنت. ونركّز على فئتين شائعتين من المحتوى التعليمي: المهارات الحرفية (القراءة والكتابة) والرياضيات. بالنسبة لكل فئة، نختار رموزًا بارزة (فئات فرعية) بناءً على المعايير المشتركة (Common Core Standards). على سبيل المثال، تشمل الرموز المتعلقة بالمهارة الحرفية: "أسماء الحروف"، و"أصوات الحروف"، بينما تشمل رموز الرياضيات: "العد"، و"التصنيف". ونطرح هذه المشكلة كمهمة تصنيف متعددة التسميات على مستوى دقيق، نظرًا لأن مقاطع الفيديو قد تحتوي على أنواع متعددة من المحتوى التعليمي، وقد تكون الفئات التعليمية متشابهة بصريًا (مثلًا: "أسماء الحروف" مقابل "أصوات الحروف"). ونقترح منهجًا جديدًا يعتمد على نماذج الفئة (class prototypes) في التعلم المُوجه بالتمييز (supervised contrastive learning)، قادر على التعامل مع العينات الدقيقة المرتبطة بعدة تسميات في آنٍ واحد. حيث نتعلم نموذجًا مركزيًا لكل فئة، ونستخدم دالة خسارة تُقلل المسافات بين النموذج المركزي وعينات الفئة ذاتها، في الوقت الذي تُعزز فيه المسافات بين النموذج المركزي وعينات الفئات الأخرى. وبما أن التزامن بين الإشارات البصرية والصوتية يُعد أمرًا حاسمًا للفهم الفعّال، نعتمد شبكة تحويلية متعددة الوسائط (multimodal transformer) لالتقاط التفاعل بين الإشارات البصرية والصوتية في مقاطع الفيديو أثناء تعلم تمثيلات الفيديو (embeddings). ولغرض التقييم، نقدّم مجموعة بيانات تُسمى APPROVE، تتكوّن من مقاطع فيديو تعليمية من يوتيوب تم تسميتها بدقة من قبل باحثين تربويين وفقًا لفئات تعليمية دقيقة. تضم مجموعة بيانات APPROVE 193 ساعة من مقاطع الفيديو التي تم تسميتها من قبل خبراء، وتضم 19 فئة. وقد أظهرت النتائج أن المنهج المقترح يتفوّق على النماذج القوية في مجموعة بيانات APPROVE، وكذلك في مجموعات معايير أخرى مثل YouTube-8M وCOIN. وتُتاح مجموعة البيانات عبر الرابط التالي: https://nusci.csl.sri.com/project/APPROVE.

التعلم المقابل لبروتوتيبات الفئات لتصنيف مقاطع الفيديو التعليمية متعددة التصنيفات والدقيقة | أحدث الأوراق البحثية | HyperAI