خسارة مُتَعَدِّية تُراعي الخلفية لتحديد النشاط الزمني المُوجَّه ضعيفًا

تم دراسة تحليل النشاطات في الفيديوهات غير المُعدّلة من حيث الزمن بشكل واسع في السنوات الأخيرة. وعلى الرغم من التطورات الحديثة، لا تزال الطرق الحالية لتحديد النشاطات الزمنية المدعومة ضعيفًا تعاني من صعوبة في التعرف على حالات عدم حدوث النشاط. ولحل هذه المشكلة، نقترح طريقة جديدة تُسمى A2CL-PT. في منهجيتنا، نأخذ بعين الاعتبار ثلاثية من فضاء الميزات: إحدى الثلاثيات تُستخدم لتعلم ميزات تمييزية لكل فئة من فئات النشاطات، بينما تُستخدم الثلاثية الأخرى في التمييز بين الميزات التي لا ترتبط بأي نشاط (أي الميزات الخلفية) والميزات المرتبطة بالنشاط في كل فيديو. ولتحسين الأداء بشكل أكبر، قمنا ببناء شبكتنا باستخدام فرعين متوازيين يعملان بطريقة تعاكسية: يركز الفرع الأول على تحديد أبرز النشاطات في الفيديو، بينما يبحث الفرع الثاني عن نشاطات تكميلية أخرى من الأجزاء غير المحددة في الفيديو. أظهرت التجارب الواسعة التي أُجريت على مجموعتي بيانات THUMOS14 وActivityNet أن الطريقة المقترحة فعّالة، حيث تم تحسين متوسط mAP عند حدود التداخل (IoU) من 0.1 إلى 0.9 على مجموعة بيانات THUMOS14 من 27.9% إلى 30.0% بشكل ملحوظ.