شبكات العصبي المتشابكة على مستوى الأجزاء للكشف عن المشاة باستخدام التمييز والمحاذاة الصندوق الحدودي

المشاة في مقاطع الفيديو لديهم مجموعة واسعة من المظاهر مثل وضعيات الجسم، والتشويش، والخلفيات المعقدة، ويوجد مشكلة تحول الاقتراح (proposal shift) في اكتشاف المشاة التي تؤدي إلى فقدان أجزاء الجسم مثل الرأس والساقين. لحل هذه المشكلة، نقترح في هذا البحث شبكات عصبية تقنية (CNN) على مستوى الأجزاء باستخدام البارزة (saliency) ومحاذاة الصندوق الحدودي (bounding box alignment). تتكون الشبكة المقترحة من شبكتين فرعيتين: الاكتشاف والمحاذاة. نستخدم البارزة في الشبكة الفرعية لاكتشاف لإزالة الإشارات الخاطئة مثل أعمدة الإنارة والأشجار. نعتمد محاذاة الصندوق الحدودي على اقتراحات الاكتشاف في الشبكة الفرعية للمحاذاة لمعالجة مشكلة تحول الاقتراح. أولاً، نجمع بين FCN وCAM لاستخراج الخصائص العميقة لاكتشاف المشاة. ثانياً، نقوم بتنفيذ CNN على مستوى الأجزاء لإعادة استدعاء الأجزاء الجسدية المفقودة. تظهر النتائج التجريبية على مجموعات بيانات مختلفة أن الطريقة المقترحة تحسن بشكل ملحوظ دقة اكتشاف المشاة وتتفوق على التقنيات الحالية المتقدمة من حيث معدل الخطأ المتوسط اللوغاريتمي عند وجود إشارات خاطئة لكل صورة (FPPI).