التحديد الزمني للإجراءات بالاعتماد على تعلم تكاملي تدريجي بمحفظة مراقبة ضعيفة

يهدف التحديد الزمني للإجراءات الضعيف المراقب (WSTAL) إلى تحديد وتصنيف حالات الإجراء في مقاطع الفيديو الطويلة غير المُقَصَّة باستخدام علامات فئة فقط على مستوى الفيديو. وبسبب عدم توفر مراقبة على مستوى القطع (snippets) لتحديد حدود الإجراءات، غالبًا ما تُخصص الطرق السابقة علامات افتراضية (Pseudo labels) للقطع غير المُسَمَّاة. ومع ذلك، نظرًا لأن بعض حالات الإجراءات ذات فئات مختلفة تتشابه بصريًا، فإن تحديد الفئة الإجرائية (عادةً واحدة فقط) للقطع يكون أمرًا غير سهل، وسوف تؤثر العلامات الافتراضية الخاطئة سلبًا على أداء التحديد. لحل هذه المشكلة، نقترح طريقة جديدة من منظور استبعاد الفئات، تُسمى التعلم التدرجي المكمل (ProCL)، التي تُعزز تدريجيًا المراقبة على مستوى القطع. تُستلهم هذه الطريقة من حقيقة أن العلامات على مستوى الفيديو تُحدد بدقة الفئات التي لا يمكن أن تنتمي إليها أي قطعة، وهي معلومة تم تجاهلها في الطرق السابقة. وبناءً عليه، نستبعد أولًا الفئات التي لا يمكن أن تكون موجودة فعليًا باستخدام دالة خسارة التعلم المكمل. ثم نُقدِّم طريقة تسمية افتراضية مكملة مُدركة للخلفية، بهدف استبعاد فئات إضافية للقطع التي تُظهر تباينًا أقل. علاوةً على ذلك، بالنسبة للقطع المتبقية التي تُعاني من التباس، نحاول تقليل هذا التباس من خلال التمييز بين الإجراءات الأمامية (foreground) والخلفية. تُظهر النتائج التجريبية الواسعة أن طريقة العمل تحقق أداءً جديدًا على مستوى الحد الأقصى (SOTA) على معيارين شهيرين، وهما THUMOS14 وActivityNet1.3.