التعلم شبه المشرف من النهاية إلى النهاية للكشف عن أفعال الفيديو

في هذا العمل، نركز على التعلم شبه المشرف (Semi-Supervised Learning) للكشف عن أفعال الفيديو، والذي يستخدم البيانات المصنفة وغير المصنفة على حد سواء. نقترح نهجًا بسيطًا ومتكاملًا يعتمد على الثباتية (Consistency) ويستغل البيانات غير المصنفة بشكل فعال. يتطلب الكشف عن أفعال الفيديو تنبؤ فئات الأفعال بالإضافة إلى تحديد موقعها الزماني-المكاني (Spatio-Temporal Localization). لذلك، ندرس نوعين من القيود: ثباتية التصنيف (Classification Consistency) وثباتية الزمان والمكان (Spatio-Temporal Consistency).وجود الخلفيات السائدة والمناطق الثابتة في الفيديو يجعل من الصعب استغلال الثباتية الزماني-المكانية للكشف عن الأفعال. لمعالجة هذا، نقترح قيدين تنظيميين جديدين للثباتية الزماني-المكانية؛ 1) التماسك الزمني (Temporal Coherency)، و2) سلاسة التدرج (Gradient Smoothness). كلتا هاتين الجوانب تستغل الاستمرارية الزمنية للأفعال في الفيديوهات وتظهر أنها فعالة في استغلال الفيديوهات غير المصنفة للكشف عن الأفعال. نوضح فعالية النهج المقترح على مجموعتين مختلفتين من بيانات الاختبار القياسية للكشف عن الأفعال، وهما UCF101-24 وJHMDB-21.بالإضافة إلى ذلك، نظهر أيضًا فعالية النهج المقترح في تقسيم كائنات الفيديو على مجموعة بيانات Youtube-VOS، مما يدل على قدرته على التعميم. يحقق النهج المقترح أداءً تنافسيًا باستخدام فقط 20% من التسميات على UCF101-24 عند مقارنته بالطرق المشرفة تمامًا الحديثة. وعلى UCF101-24، يحسن النتيجة بنسبة +8.9% و+11% عند مستوى 0.5 f-mAP وv-mAP على التوالي مقارنة بالنهج المشرف.