HyperAIHyperAI
منذ 3 أشهر

فصل الفيديو المشغول-الهادئ للتصنيف الفيديوي

Guoxi Huang, Adrian G. Bors
فصل الفيديو المشغول-الهادئ للتصنيف الفيديوي
الملخص

في بيانات الفيديو، يتم نقل التفاصيل الحركية الكثيفة من المناطق المتحركة ضمن نطاق ترددي محدد في المجال الترددي. في الوقت نفسه، يتم تشفير باقي الترددات في بيانات الفيديو ببيانات هادئة تتميز بكمية كبيرة من التكرار، مما يؤدي إلى كفاءة منخفضة في النماذج الحالية لمعالجة الفيديو التي تعتمد على الإطارات الخام بالألوان RGB. في هذه الورقة، نقترح تخصيص حسابات أكثر كثافة لمعالجة المعلومات الحيوية الحركية، وتقليل الحسابات المخصصة لمعالجة المعلومات الهادئة. ولهذا الغرض، قمنا بتصميم وحدة قابلة للتدريب تُسمى "وحدة التمرير الترددي للحركة" (MBPM) لفصل المعلومات الحركية عن المعلومات الهادئة في بيانات الفيديو الخام. وبإدخال وحدة MBPM ضمن بنية شبكة عصبية تلافيفية ذات طريقتين (CNN)، نُعرّف نموذجًا جديدًا يُسمى "Busy-Quiet Net" (BQN). تُحدَّد كفاءة نموذج BQN من خلال تجنب التكرار في الفضاء المميزات الذي تعالجه الطريقتان: إحداهما تعمل على مميزات هادئة ذات دقة منخفضة، بينما تعمل الأخرى على مميزات حركية. وقد أظهر النموذج المقترح أداءً أفضل من العديد من النماذج الحديثة لمعالجة الفيديو على مجموعات بيانات Something-Something V1 وKinetics400 وUCF101 وHMDB51.