موج فيس: نحو فهم أعمق للكشف عن الوجه

بفضل التصميم الرائد للكاشفات العامة للأجسام، تم تحقيق إنجازات كبيرة في مجال كشف الوجوه. عادةً، تُستلهم هياكل الخلفية (backbone)، وطبقة الهرم المميز (feature pyramid layer)، ووحدة الكاشف (detection head) في كاشف الوجه من الخبرات المتميزة المكتسبة من الكاشفات العامة للأجسام. ومع ذلك، تفشل عدة طرق فعالة، بما في ذلك استراتيجية تعيين التسميات (label assignment) واستراتيجية تكبير البيانات حسب المقياس (scale-level data augmentation)، في الحفاظ على تفوق مستمر عند تطبيقها مباشرةً على كاشفات الوجه. وبشكل محدد، تشمل الاستراتيجية الأولى كمية كبيرة من المعاملات الهيكلية (hyper-parameters)، بينما تعاني الاستراتيجية الثانية من تحدي التحيز في توزيع المقياس بين مهام الكشف المختلفة، مما يحد من قدرتها على التعميم. علاوة على ذلك، لتقديم مربعات حدودية دقيقة للوجوه لدعم المهام اللاحقة في معالجة الوجه، يجب على كاشف الوجه التخلص من الإنذارات الخاطئة (false alarms) بشكل ضروري. وعليه، فإن حلول عملية في مجال تعيين التسميات، وتكبير البيانات حسب المقياس، وتقليل الإنذارات الخاطئة ضرورية لتحسين أداء كاشفات الوجه. في هذا البحث، نركّز على معالجة الثلاثة التحديات المذكورة أعلاه التي تُعتبر صعبة على الطرق الحالية، ونقدّم كاشفًا جديدًا للوجه يُسمّى MogFace. في إطار MogFace، نقترح ثلاثة مكونات رئيسية: استراتيجية تعدين المفاتيح التلقائية التكيفية التراكمية (Adaptive Online Incremental Anchor Mining Strategy)، واستراتيجية تعزيز المقياس الاختيارية (Selective Scale Enhancement Strategy)، ووحدة الوضع السياقي الهرمية (Hierarchical Context-Aware Module)، بهدف تعزيز أداء كاشفات الوجه. وأخيرًا، وبأفضل ما نعرف، يُعدّ MogFace أفضل كاشف للوجه في قائمة التصنيف الخاصة بـ Wider Face، حيث حقق المركز الأول في جميع سيناريوهات الاختبار المختلفة. يمكن الوصول إلى الشفرة المصدرية عبر الرابط: \url{https://github.com/damo-cv/MogFace}.