HyperAIHyperAI
منذ 17 أيام

التعلم حيث التركيز من أجل الكشف الفعّال عن الكائنات في الفيديو

Zhengkai Jiang, Yu Liu, Ceyuan Yang, Jihao Liu, Peng Gao, Qian Zhang, Shiming Xiang, Chunhong Pan
التعلم حيث التركيز من أجل الكشف الفعّال عن الكائنات في الفيديو
الملخص

نقل كاشفات الصور القائمة إلى الفيديو ليس أمرًا سهلًا، نظرًا لتدهور جودة الإطارات دائمًا بسبب التغطية الجزئية، والوضعيات النادرة، والضباب الحركي. استخدمت الطرق السابقة نقلًا وتجميعًا للسمات عبر إطارات الفيديو باستخدام تحويل التدفق البصري (optical flow-warping). ومع ذلك، قد لا يُحقق تطبيق التدفق البصري على مستوى الصورة على السمات عالية المستوى تطابقًا فراغيًا دقيقًا. لذلك، تم اقتراح وحدة جديدة تُسمى التناوب الفراغي الزمني القابل للتعلم (LSTS) لتعلم التطابقات على مستوى المعنى بين سمات الإطارات المجاورة بدقة. تُبدأ نقاط العينة بتحديث عشوائي، ثم تُحدَّث تدريجيًا للعثور على تطابقات فراغية أفضل، بقيادة تدريب الكشف تدريجيًا. بالإضافة إلى ذلك، تم تقديم وحدة التحديث المتكرر النادر للسمات (SRFU) ووحدة تجميع السمات الكثيفة (DFA) لتمثيل العلاقات الزمنية وتعزيز السمات لكل إطار على التوالي. وبلا إضافات غير ضرورية، تحقق الطريقة المقترحة أداءً متقدمًا جدًا على مجموعة بيانات ImageNet VID، مع تقليل التعقيد الحسابي وسرعة زمنية حقيقية. سيتم إتاحة الكود على الرابط: https://github.com/jiangzhengkai/LSTS.

التعلم حيث التركيز من أجل الكشف الفعّال عن الكائنات في الفيديو | أحدث الأوراق البحثية | HyperAI