شبكة التجميع الأسلوبي لاكتشاف معالم الوجه

التطورات الحديثة في اكتشاف معالم الوجه تحقق النجاح من خلال تعلم الخصائص التمييزية من التحولات الغنية في أشكال ووضعيات الوجوه. بالإضافة إلى الاختلافات الموجودة في الوجوه نفسها، فإن الاختلافات الجوهرية في أساليب الصور، مثل الصور الرمادية مقابل الصور الملونة، الإضاءة القوية مقابل الإضاءة الخافتة، الألوان الحادة مقابل الألوان الباهتة وما إلى ذلك، قد تم إغفالها بشكل مستمر. يصبح هذا الأمر حتمياً مع زيادة جمع صور الويب من مصادر مختلفة لتدريب الشبكات العصبية. في هذا البحث، نقترح نهجاً مجمعاً للأساليب للتعامل مع الاختلاف الكبير في أساليب الصور لاكتشاف معالم الوجه. طريقتنا تقوم بتحويل الصور الأصلية للوجوه إلى صور مجمعة الأساليب باستخدام وحدة تنافسية توليدية (Generative Adversarial Module). يستخدم النموذج المقترح الصورة المجمعة الأساليب لضمان أن تكون صور الوجوه أكثر مقاومة للتغيرات البيئية. ثم تعمل الصور الأصلية للوجه مع تلك المجمعة الأساليب كثنائي لتدريب كاشف المعالم الذي يكون مكملًا لكل منها. بهذه الطريقة، لكل وجه، تقوم طريقتنا بأخذ صورتين كمدخلات، أي واحدة بأسلوبها الأصلي والأخرى بالمظهر المجمع الأساليب. في التجارب، نلاحظ أن الاختلاف الكبير في أساليب الصور يمكن أن يقلل من أداء كواشف معالم الوجه. علاوة على ذلك، نظهر متانة طرقتنا أمام الاختلاف الكبير في أساليب الصور من خلال المقارنة بنموذج متنوع من طرقتنا، حيث يتم إزالة الوحدة التنافسية التوليدية ولا يتم استخدام أي صور مجمعة الأساليب. لقد ثبت أن أداؤنا جيد عند مقارنته بالخوارزميات الرائدة على قواعد بيانات المعايير AFLW و 300-W. الكود متاح بشكل عام على GitHub: https://github.com/D-X-Y/SAN