3D-DETNet: منظومة كشف المركبات ذات المرحلة الواحدة المستندة إلى الفيديو

لقد حظي اكتشاف المركبات القائم على الفيديو باهتمام كبير خلال العقد الماضي، وهناك العديد من طرق الاكتشاف المستندة إلى التعلم العميق التي يمكن تطبيقها عليه. ومع ذلك، فإن هذه الطرق تم تصميمها للصور الثابتة وعند تطبيقها مباشرة لاكتشاف المركبات في الفيديو، فإن الأداء يكون غالباً ضعيفاً. في هذا البحث، نقترح كاشف مركبات جديد قائم على الفيديو ومدمج مع شبكة 3DCovNet وخسارة البؤرة (focal loss)، والذي نطلق عليه اسم 3D-DETNet. بفضل استخدام شبكة الإدراك ثلاثية الأبعاد وخسارة البؤرة، يمتلك أسلوبنا القدرة على التقاط معلومات الحركة وهو أكثر ملاءمة لاكتشاف المركبات في الفيديو مقارنة بالأساليب الأخرى القائمة على الصور الثابتة. يتم تقديم الإطارات المتعددة للفيديو أولاً إلى 3D-DETNet لإنشاء خرائط ميزات فضائية متعددة، ثم يقوم النموذج الفرعي 3DConvNet بأخذ خرائط الميزات الفضائية كمدخلات لتقاط المعلومات الزمنية التي يتم تقديمها إلى النموذج النهائي القائم على الإدراك الكامل للتنبؤ بمواقع المركبات في إطارات الفيديو. قمنا بتقييم أسلوبنا على مجموعة بيانات UA-DETAC لاكتشاف المركبات، وأظهرت نتائج 3D-DETNet أفضل أداء وأحتفظت بسرعة اكتشاف أعلى تبلغ 26 إطارًا في الثانية مقارنة بالأساليب المنافسة الأخرى.