التعلم المُرشَّح ضعيفًا لاختيار الإجراءات في الفيديو

توظيف الأفعال في الفيديو يُعد مهمة أساسية في رؤية الحاسوب. ويدرس مشكلة التصنيف الزمني المُشَغَّل ضعيفًا ما إذا كان يمكن حل هذه المهمة بشكل كافٍ باستخدام علامات الفيديو فقط، مما يقلل بشكل كبير من كمية التسمية المكلفة والعرضة للأخطاء التي تتطلبها. إحدى الطرق الشائعة هي تدريب تصنيف لمستوى الإطار (frame-level classifier)، حيث يتم اختيار الإطارات ذات أعلى احتمال فئة لصنع توقعات على مستوى الفيديو. ثم تُستخدم تنشيطات الإطارات لتحديد الموقع. ومع ذلك، فإن غياب التسميات على مستوى الإطار يؤدي إلى إضفاء انحياز فئوي على كل إطار. ولحل هذه المشكلة، نقترح منهجية تُسمى تعلّم اختيار الفعل (Action Selection Learning - ASL) لاستكشاف المفهوم العام للفعل، وهو ما نسميه "الصفة الفعلية" (actionness). ضمن منهجية ASL، يتم تدريب النموذج على مهمة جديدة غير مُتعلقة بالفئة (class-agnostic) لتنبؤ أي الإطارات سيختارها التصنيف. ونُظهر تجريبيًا أن ASL تتفوق على النماذج الرائدة في معياري THUMOS-14 وActivityNet-1.2، بتحسن نسبي قدره 10.3% و5.7% على التوالي. كما نقوم بتحليل خصائص ASL ونُظهر أهمية مفهوم "الصفة الفعلية". يمكن الوصول إلى الكود الكامل لهذا العمل من خلال الرابط التالي: https://github.com/layer6ai-labs/ASL.