HyperAIHyperAI
منذ 17 أيام

مقترحات قابلة للتعلم الزمكانية للكشف عن الكائنات في الفيديو من الطرف إلى الطرف

Khurram Azeem Hashmi, Didier Stricker, Muhammamd Zeshan Afzal
مقترحات قابلة للتعلم الزمكانية للكشف عن الكائنات في الفيديو من الطرف إلى الطرف
الملخص

يقدم هذا البحث فكرة جديدة لاستخلاص اقتراحات الكائنات من خلال الاستفادة من المعلومات الزمنية في الكشف عن الكائنات في الفيديو. تعتمد عملية تجميع الميزات في كاشفات الكائنات في الفيديو القائمة على المناطق الحديثة بشكل كبير على الاقتراحات المُدرَّبة المستمدة من مُقترح RPN أحادي الإطار. وهذا يُسبب تدريجيًا إدخال مكونات إضافية مثل NMS، ويُنتج اقتراحات غير موثوقة في الإطارات ذات الجودة المنخفضة. لمعالجة هذه القيود، نقدم SparseVOD، وهي مسار جديد للكشف عن الكائنات في الفيديو يستخدم Sparse R-CNN للاستفادة من المعلومات الزمنية. وتحديدًا، نُضيف وحدتين في وحدة الديناميكية (Dynamic Head) الخاصة بـ Sparse R-CNN. أولاً، نُضيف وحدة استخراج الميزات الزمنية التي تعتمد على عملية Temporal RoI Align لاستخراج ميزات اقتراحات RoI. ثانيًا، مستوحى من تجميع المعنى على مستوى التسلسل، نُدمج وحدة تجميع ميزات الاقتراحات المعتمدة على الانتباه (attention-guided Semantic Proposal Feature Aggregation) لتعزيز تمثيل ميزات الكائنات قبل الكشف. يُقلل SparseVOD المقترح بشكل فعّال من عبء الطرق المعقدة لمعالجة ما بعد التدريب، ويجعل المسار الكلي قابلاً للتدريب من النهاية إلى النهاية. أظهرت التجارب الواسعة أن طريقة我们的 تُحسّن بشكل ملحوظ أداء Sparse RCNN الأحادية الإطار بنسبة 8% إلى 9% من حيث mAP. علاوةً على ذلك، وبجانب تحقيق أداء متميز بـ 80.3% من mAP على مجموعة بيانات ImageNet VID باستخدام نموذج ResNet-50 كقاعدة، يتفوّق SparseVOD على الطرق القائمة على الاقتراحات الحالية بمدى كبير عند زيادة حدود IoU (IoU > 0.5).

مقترحات قابلة للتعلم الزمكانية للكشف عن الكائنات في الفيديو من الطرف إلى الطرف | أحدث الأوراق البحثية | HyperAI