كيفية 100M: تعلم تمثيل نص-فيديو من خلال مشاهدة مائة مليون مقطع فيديو معروض عليه النص

عادةً ما تتطلب تعلم تمثيلات النص-الفيديو مجموعة بيانات تحتوي على مقاطع فيديو مع التسميات اليدوية. ومع ذلك، فإن مثل هذه المجموعات تكون باهظة الثمن ومستهلكة للوقت لإنشائها وبالتالي من الصعب الحصول عليها على نطاق واسع. في هذا العمل، نقترح بدلاً من ذلك تعلم هذه التمثيلات من بيانات الفيديو مع شروحات لغوية طبيعية متاحة بسهولة على شكل روايات مكتوبة آلياً. إسهامات هذا العمل ثلاثية:أولاً، نقدم HowTo100M: مجموعة بيانات كبيرة الحجم تتكون من 136 مليون مقطع فيديو مستخرجة من 1.22 مليون فيديو تعليمي عبر الإنترنت يصف فيها البشر أداءهم لأكثر من 23 ألف مهمة بصرية مختلفة.ثانياً، نوضح أن تمثيل النص-الفيديو الذي يتم تدريبه باستخدام هذه البيانات يؤدي إلى نتائج رائدة في استرجاع الفيديو بالنص وتخصيص الأفعال على مجموعات بيانات الفيديوهات التعليمية مثل YouCook2 أو CrossTask.أخيراً، نبين أن هذا التمثيل ينتقل بشكل جيد إلى مجالات أخرى: حيث يؤدي التعديل الدقيق على مقاطع الفيديو العامة من YouTube (مجموعة بيانات MSR-VTT) والأفلام (مجموعة بيانات LSMDC) إلى تفوق النماذج التي تم تدريبها على هذه المجموعات بمفردها. سيتم توفير مجموعتنا من البيانات والكود والنماذج بشكل عام على الرابط التالي: www.di.ens.fr/willow/research/howto100m/.