شبكة تحويلية تانه قطاعية لتحليل الوجه في البيئات البرية

تهدف عملية تحليل الوجه إلى توقع العلامات الحرفية لكل بكسل تابعة لمكونات الوجه في صورة معينة. تُستخدم الطرق الحالية عادةً في قص الوجه المستهدف من الصورة المدخلة بناءً على مربع حدودي تم حسابه أثناء مرحلة ما قبل المعالجة، وبالتالي يمكنها فقط تحليل مناطق الاهتمام الداخلية في الوجه (RoIs). وتُهمل المناطق المحيطة مثل الشعر، كما يمكن أن تسبب الوجوه القريبة التي تقع جزئيًا داخل المربع الحدودي تشتيتًا. علاوةً على ذلك، تُدرّب هذه الطرق وتُختبر فقط على صور وجوه مواجهة تقريبًا، وبالتالي لم تُدرس أداءها في الحالات الواقعية (in-the-wild). ولحل هذه المشكلات، تقدم هذه الورقة ثلاث إسهامات. أولاً، نُقدّم مجموعة بيانات iBugMask الخاصة بتحليل الوجه في البيئات الواقعية، والتي تتكون من 21,866 صورة تدريبية و1,000 صورة اختبار. تم الحصول على صور التدريب من خلال تعزيز مجموعة بيانات موجودة باستخدام زوايا وجوه كبيرة. أما صور الاختبار، فقد تم تسميتها يدويًا بـ 11 منطقة وجه، وتمتاز بتنوع كبير في الأحجام والزوايا والتعبيرات والخلفيات. ثانيًا، نقترح تحويل RoI Tanh-polar، الذي يُحول الصورة بأكملها إلى تمثيل Tanh-polar بحالة ثابتة بين مساحة الوجه والسياق، وتُوجَّه هذه العملية بواسطة المربع الحدودي المستهدف. ويحتوي التمثيل الجديد على جميع المعلومات في الصورة الأصلية، ويسمح بتقريب التماثل الدوراني في الشبكات العصبية التلافيفية (CNNs). ثالثًا، نقترح كتلة تعلم تمثيل متبقي هجينية، تُسمى HybridBlock، تتضمن طبقات تلافيفية في كل من الفضاء Tanh-polar والفَضاء Tanh-Cartesian، مما يسمح بحقول استقبال ذات أشكال مختلفة في الشبكات العصبية التلافيفية. ومن خلال تجارب واسعة النطاق، نُظهر أن الطريقة المقترحة تُحسّن الأداء الأفضل في مجال تحليل الوجه في البيئات الواقعية، ولا تتطلب استخدام نقاط مميزة للوجه في عملية التوجيه.