تجميع التراكمي التوافقي للدليل المحلي لمحاذاة الوجه بزاوية كبيرة

تتطلب طرق التحديد غير المقيد لوجه الإنسان تلبية شرطين: ألا تعتمد على تهيئة دقيقة أو كشف الوجه بدقة، وأن تؤدي بأداء متساوٍ عبر الطيف الكامل لزوايا الوجه. إلى حد معرفتنا، لا توجد أي طرق تلبي هذين الشرطين إلى حد مرضٍ، ولهذا نقترح في هذه الورقة معمارية شبكة عصبية تلافيفية تُسمى "تجميع الدلائل المحلية المُتَوَزِّعة" (CALE)، وهي معمارية تعتمد على الشبكات العصبية التلافيفية (CNN) مصممة خصيصًا لمعالجة هذين التحديين. وبشكل خاص، للتخلص من الحاجة إلى كشف الوجه بدقة، تقوم أنظمتنا أولًا بتحديد أجزاء الوجه، مما يوفر درجات ثقة لتحديد مواقع كل من العلامات الوجهية (أي الدلائل المحلية). ثم، تقوم أنظمتنا بدمج خرائط هذه الدرجات مع ميزات الشبكة العصبية المبكرة من خلال الانحدار المشترك لتحسين دقة تحديد مواقع العلامات. إلى جانب أداء دور نموذج رسومي، يُعد الانحدار باستخدام الشبكة العصبية أحد الميزات الأساسية في نظامنا، حيث يوجه الشبكة للاعتماد على السياق عند التنبؤ بمواقع العلامات المُحجبَة، والتي تُعد شائعة جدًا في حالات زوايا الوجه الكبيرة جدًا. يتم تدريب النظام بالكامل من البداية إلى النهاية مع دعم وسطي (intermediate supervision). عند تطبيقه على مجموعة اختبار AFLW-PIFA، الأكثر تحدّيًا حتى الآن لتحديد مواقع الوجه البشري، يُظهر أسلوبنا مكاسب تزيد عن 50٪ في دقة التحديد مقارنةً بالأساليب الحديثة المنشورة لتحديد مواقع الوجه في حالات الزوايا الكبيرة. وبالانتقال إلى واجهات الحيوانات، نُظهر أيضًا أن CALE فعّالة في التعامل مع التغيرات الكبيرة جدًا في الشكل والملامح، وهي حالات شائعة في وجوه الحيوانات.