مقترحات قابلة للتعلم الزمكانية للكشف عن الكائنات في الفيديو من الطرف إلى الطرف

يقدم هذا البحث فكرة جديدة لاستخلاص اقتراحات الكائنات من خلال الاستفادة من المعلومات الزمنية في الكشف عن الكائنات في الفيديو. تعتمد عملية تجميع الميزات في كاشفات الكائنات في الفيديو القائمة على المناطق الحديثة بشكل كبير على الاقتراحات المُدرَّبة المستمدة من مُقترح RPN أحادي الإطار. وهذا يُسبب تدريجيًا إدخال مكونات إضافية مثل NMS، ويُنتج اقتراحات غير موثوقة في الإطارات ذات الجودة المنخفضة. لمعالجة هذه القيود، نقدم SparseVOD، وهي مسار جديد للكشف عن الكائنات في الفيديو يستخدم Sparse R-CNN للاستفادة من المعلومات الزمنية. وتحديدًا، نُضيف وحدتين في وحدة الديناميكية (Dynamic Head) الخاصة بـ Sparse R-CNN. أولاً، نُضيف وحدة استخراج الميزات الزمنية التي تعتمد على عملية Temporal RoI Align لاستخراج ميزات اقتراحات RoI. ثانيًا، مستوحى من تجميع المعنى على مستوى التسلسل، نُدمج وحدة تجميع ميزات الاقتراحات المعتمدة على الانتباه (attention-guided Semantic Proposal Feature Aggregation) لتعزيز تمثيل ميزات الكائنات قبل الكشف. يُقلل SparseVOD المقترح بشكل فعّال من عبء الطرق المعقدة لمعالجة ما بعد التدريب، ويجعل المسار الكلي قابلاً للتدريب من النهاية إلى النهاية. أظهرت التجارب الواسعة أن طريقة我们的 تُحسّن بشكل ملحوظ أداء Sparse RCNN الأحادية الإطار بنسبة 8% إلى 9% من حيث mAP. علاوةً على ذلك، وبجانب تحقيق أداء متميز بـ 80.3% من mAP على مجموعة بيانات ImageNet VID باستخدام نموذج ResNet-50 كقاعدة، يتفوّق SparseVOD على الطرق القائمة على الاقتراحات الحالية بمدى كبير عند زيادة حدود IoU (IoU > 0.5).