شبكة قمع الخلفية للتحديد الزمني للإجراءات الضعيف المُدرَّب

التحديد الزمني للإجراءات بشكل ضعيف التدريب يُعد مشكلة صعبة جدًا، لأن التصنيفات على مستوى الإطارات لا تُعطى أثناء مرحلة التدريب، والدليل الوحيد المتاح هو التصنيفات على مستوى الفيديو: ما إذا كان كل فيديو يحتوي على إطارات تُظهر الإجراء المطلوب. اعتمد الطرق السابقة على تجميع نقاط التصنيف على مستوى الإطارات لإنتاج تنبؤات على مستوى الفيديو، ثم تعلّم من التصنيفات على مستوى الفيديو للإجراءات. لكن هذه الصيغة لا تُمثّل المشكلة بشكل كامل، إذ تُجبر الإطارات الخلفية على التصنيف خطأً كفئات إجرائية لتحقيق تنبؤات دقيقة على مستوى الفيديو. في هذا البحث، قمنا بتصميم شبكة قمع الخلفية (BaS-Net) التي تُقدّم فئة إضافية للخلفية، وتمتلك بنية مزدوجة تشارك في الأوزان مع استراتيجية تدريب غير متزنة. يمكّن هذا التصميم BaS-Net من تقليل التنشيطات الناتجة عن الإطارات الخلفية، مما يُحسّن أداء التحديد المكاني. أظهرت التجارب الواسعة فعالية BaS-Net، وتفوّقها على أفضل الطرق الحالية على أكثر المعايير شيوعًا: THUMOS'14 وActivityNet. يمكن الوصول إلى الكود المُعدّ ونموذج التدريب عبر الرابط: https://github.com/Pilhyeon/BaSNet-pytorch.