ACM-Net: شبكة نمذجة السياق الإجرائي للتحديد الزمني للإجراءات بشكل ضعيف التدريب

تهدف التحديد الزمني للإجراءات الضعيف المُشرَّف إلى تحديد الحدود الزمنية للحالات الإجرائية وتحديد الفئة الإجرائية المقابلة باستخدام علامات فيديو فقط على مستوى الفيديو. تركز الطرق التقليدية بشكل رئيسي على فصل الإطارات المقدمة (الخلفية) عن الإطارات المُقدمة (المقدمة) باستخدام فرع انتباه واحد فقط وتسلسل نشاط الفئة. ومع ذلك، نحن نجادل بأن هناك العديد من الإطارات السياقية ذات دلالة غير واضحة بخلاف الإطارات المميزة المقدمة والخلفية. من غير المنطقي جمع تلك الإطارات السياقية في نفس فئة الخلفية، لأنها ذات دلالة مترابطة مع فئة إجرائية محددة. وبالتالي، يُعد من الصعب قمع إطارات السياق الإجرائية باستخدام تسلسل نشاط فئة واحد فقط. لمعالجة هذه المشكلة، نقترح في هذه الورقة شبكة نمذجة السياق الإجرائي تُسمى ACM-Net، والتي تدمج وحدة انتباه ثلاثية الفروع لقياس احتمالية كل نقطة زمنية أن تكون حالة إجرائية، أو سياقًا، أو خلفية غير إجرائية، بشكل متزامن. ثم، بناءً على قيم الانتباه الثلاثية المُحصلة، ننشئ تسلسلات نشاط فئة ثلاثية الفروع لتمثيل الحالات الإجرائية، والسياقات، والخلفيات غير الإجرائية على التوالي. ولتقييم فعالية ACM-Net، أجرينا تجارب واسعة على مجموعتي بيانات معياريتين، وهما THUMOS-14 وActivityNet-1.3. تُظهر النتائج أن طريقة التحديد الزمني المُقترحة تتفوق على أحدث الطرق المُتاحة، بل وتصل إلى أداء مماثل للطرق المُشرَّفة بالكامل. يمكن الوصول إلى الكود من خلال الرابط التالي: https://github.com/ispc-lab/ACM-Net