التدريب المسبق على نطاق واسع مع إشراف ضعيف لتمييز الأنشطة في الفيديو

القواعد البيانات الفيديوية الحالية التي تخضع للإشراف الكامل تتكون من بضعة مئات الآلاف من مقاطع الفيديو وأقل من ألف تصنيف خاص بالمنطقة. وهذا يعيق التقدم نحو هياكلات فيديو متقدمة. تقدم هذه الورقة دراسة شاملة حول استخدام كميات كبيرة من مقاطع الفيديو على الويب لتدريب نماذج الفيديو مسبقًا بهدف التعرف على الأفعال. النتيجة التجريبية الرئيسية التي توصلنا إليها هي أن التدريب المسبق على نطاق كبير جدًا (أكثر من 65 مليون فيديو)، رغم وجود ضوضاء في مقاطع الفيديو وهاشتاغات وسائل التواصل الاجتماعي، يحسن بشكل كبير الحالة الراهنة في ثلاثة قواعد بيانات عامة صعبة للتعرف على الأفعال.بالإضافة إلى ذلك، نقوم بفحص ثلاث أسئلة في بناء قواعد بيانات الفيديو للأفعال تحت إشراف ضعيف. أولاً، بما أن الأفعال تتضمن تفاعلات مع الأجسام، كيف يجب بناء فضاء تصنيف مسبق يتكون من فعل وجسم لتحقيق أكبر استفادة من التعلم النقل؟ ثانيًا، تؤدي نماذج القائمة على الإطارات أداءً جيدًا للغاية في التعرف على الأفعال؛ هل يعتبر التدريب المسبق للخصائص المرئية الجيدة كافيًا أم أن التدريب المسبق للخصائص الزمانية-المكانية له قيمة لتحقيق أفضل تعلم نقل؟ ثالثًا، تكون الأفعال عمومًا أقل تحديدًا في مقاطع الفيديو الطويلة مقارنة بمقاطع الفيديو القصيرة؛ بما أن تصنيفات الأفعال يتم تقديمها على مستوى الفيديو، كيف يمكن اختيار مقاطع الفيديو لتحقيق أفضل أداء، مع وجود ميزانية ثابتة من حيث عدد أو دقائق مقاطع الفيديو؟