التدريب المسبق متعدد الوسائط للتعليق الكثيف على الفيديو

يتم التعلم الفعلي للمهارات المحددة، مثل الطبخ وصيانة السيارات والإصلاحات المنزلية، بشكل متزايد من خلال مقاطع الفيديو التعليمية. يُعرف أن تجربة المستخدم مع هذه المقاطع تتحسن بفضل المعلومات الوصفية (meta-information)، مثل التسميات الزمنية للخطوات الرئيسية. ويعتبر إنشاء هذه التسميات تلقائيًا أمرًا صعبًا، ونقدم هنا إسهامين ذوي صلة. أولاً، نقوم ببناء وإطلاق مجموعة بيانات جديدة لوصف الفيديو بكثافة، تُسمى "تسميات زمنية للفيديو" (Video Timeline Tags - ViTT)، والتي تتضمن مجموعة متنوعة من مقاطع الفيديو التعليمية مع تسميات زمنية. ثانيًا، نستكشف عدة استراتيجيات لتدريب مسبق متعددة الوسائط على التسلسل إلى التسلسل، تُستفيد من مجموعات بيانات كبيرة غير مُعلَّمة تتضمن مقاطع فيديو ونصوص مشابهة للعناوين. نقوم بتدريب نماذج وصف الفيديو الكثيف مسبقًا ثم تحسينها لاحقًا باستخدام كل من YouCook2 وViTT. ونُظهر أن هذه النماذج تُظهر قدرة تعميم جيدة وثباتًا عالٍ على مجموعة واسعة من مقاطع الفيديو التعليمية.