تعلم ميزات القنوات متعددة الطبقات للكشف عن الأشخاص المشاة

تم تحقيق نجاح كبير في اكتشاف المشاة من خلال الجمع بين شبكات العصبونات التلافيفية (CNN) والميزات التقليدية المصنعة يدويًا (HOG+LUV). بشكل عام، يتم استخدام HOG+LUV لإنشاء مقترحات مرشحة، ثم تقوم CNN بتصنيف هذه المقترحات. على الرغم من هذا النجاح، لا تزال هناك مجالات للتحسين. على سبيل المثال، تقوم CNN بتصنيف هذه المقترحات باستخدام ميزات الطبقات المتصلة بالكامل بينما يتم تجاهل درجات المقترحات وميزات الطبقات الداخلية لـ CNN. في هذا البحث، نقترح إطارًا موحدًا يُسمى ميزات القنوات متعددة الطبقات (MCF) للتغلب على هذا العيب. أولاً، يتم دمج HOG+LUV مع كل طبقة من طبقات CNN في قنوات صورة متعددة الطبقات. بناءً على هذه القنوات الصورية المتعددة الطبقات، يتم تعلم سلسلة متدرجة من AdaBoost. يتم تعلم المصنفات الضعيفة في كل مرحلة من السلسلة المتدرجة من قنوات الصورة الخاصة بالطبقة المقابلة. بفضل الميزات الأكثر غنىً، يحقق MCF أفضل الأداء على مجموعة بيانات المشاة في كالتك (10.40% معدل فوات). باستخدام التسميات الجديدة والدقيقة، يحقق MCF معدل فوات بنسبة 7.98%. حيث يمكن رفض العديد من النوافذ غير المشاة بسرعة في المراحل الأولى، فإنه يسرع سرعة الاكتشاف بمقدار 1.43 مرة. عن طريق إزالة النوافذ المرصودة التي تتداخل بشكل كبير ولديها درجات أقل بعد المرحلة الأولى، يكون الأداء أسرع بمقدار 4.07 مرة مع خسارة ضئيلة جدًا في الأداء.