كشف الوجه التلقائي العميق السريع في البيئة الطبيعية باستخدام استخراج العينات الصعبة
يمثل الكشف عن الوجه مهمة أساسية في تحليل المعلومات البصرية في مجال التعلم الآلي. وقد أدى صعود البيانات الكبيرة إلى تراكم كم هائل من البيانات البصرية التي تتطلب تحليلًا دقيقًا وسريعًا. تُعدّ أساليب التعلم العميق من الطرق الفعّالة في هذا السياق، حيث أظهرت الدراسات أن التدريب على كميات كبيرة من البيانات ذات التباين العالي يُعزز بشكل ملحوظ كفاءة هذه الأساليب، لكنها غالبًا ما تتطلب عمليات حسابية باهظة الثمن وتؤدي إلى نماذج ذات تعقيد عالٍ. وعندما يكون الهدف هو تحليل المحتوى البصري في مجموعات بيانات ضخمة، فإن تعقيد النموذج يصبح عاملًا حاسمًا لنجاحه. في هذه الورقة، تم تقديم شبكة عصبية متعددة الطبقات (CNN) خفيفة الوزن للكشف عن الوجه، صُمّمت بهدف تقليل وقت التدريب والاختبار، وتتفوق في هذا المهمة على الشبكات العصبية المتعددة الطبقات العميقة المنشورة سابقًا من حيث الكفاءة والفعالية. يحتوي النموذج على 76.375 معلمة قابلة للتعديل، في حين أن معظم النماذج التنافسية الأخرى كانت تحتوي على ملايين المعلمات. ولتدريب هذه الشبكة العميقة الخفيفة الوزن دون التضحية بكفاءتها، تم اقتراح طريقة تدريب جديدة تعتمد على استخلاص تدريجي للعينات الإيجابية والسلبية الصعبة، وقد أظهرت هذه الطريقة تحسنًا كبيرًا في سرعة التدريب والدقة. بالإضافة إلى ذلك، تم تدريب شبكة عصبية عميقة منفصلة للكشف عن الخصائص الوجهية الفردية، ثم تم إنشاء نموذج يدمج مخرجات الشبكتين وتم تقييمه. وتُظهر كلتا الطريقتين قدرتهما على اكتشاف الوجوه حتى في حالات التغطية الشديدة والتغيرات الكبيرة في الوضعية غير المقيدة، وتمكّنهما من التغلب على التحديات والاختلافات الكبيرة المميزة للكشف عن الوجوه في البيئات الواقعية على نطاق واسع وفي الزمن الفعلي.