التدريب المسبق ذاتي التوجيه الضعيف للكشف عن الأنشطة الزمنية

يهدف الكشف عن النشاط الزمني إلى التنبؤ بفئات النشاط لكل إطار، على عكس التنبؤات على مستوى الفيديو في تصنيف النشاط (أي التعرف على النشاط). وبسبب التكاليف العالية المرتبطة بوضع علامات على المستويات الإطارية المطلوبة للكشف، فإن حجم مجموعات بيانات الكشف محدود. وبالتالي، يعتمد عادةً العمل السابق في الكشف الزمني للنشاط على تحسين نموذج تصنيف مُدرّب مسبقًا على مجموعات بيانات تصنيف ضخمة (مثل Kinetics-400). ومع ذلك، فإن هذه النماذج المُدرّبة مسبقًا ليست مثالية للتكيف مع المهام التالية (downstream)، نظرًا للاختلاف بين مهام التدريب المسبق ومهام التحسين الدقيق (fine-tuning) اللاحقة. في هذه الدراسة، نقترح طريقة تدريب مسبقة مبتكرة تُعرف بـ"التدريب المسبق المُوجه ضعيفًا ذاتيًا" (weakly-guided self-supervised) للكشف. نستفيد من العلامات الضعيفة (التصنيف) لإدخال مهمة سابقة ذاتية (detection) من خلال إنشاء علامات افتراضية على مستوى الإطارات، وإطارات متعددة الأنشطة، ومقاطع أنشطة. وبعبارة بسيطة، نصمم مهمة كشف مشابهة للمهمة النهائية على بيانات تصنيف ضخمة، دون الحاجة إلى علامات إضافية. ونُظهر أن النماذج التي تم تدريبها مسبقًا باستخدام المهمة المُقترحة للكشف ذاتيًا موجهة ضعيفًا تتفوق على العمل السابق في عدة معايير صعبة للكشف عن النشاط، بما في ذلك Charades وMultiTHUMOS. كما توفر التحليلات الواسعة إشارات حول متى وكيفية استخدام النماذج المقترحة في الكشف عن النشاط. يمكن الوصول إلى الكود من خلال الرابط: https://github.com/kkahatapitiya/SSDet.