محاذاة الوجه الثابتة للوضع باستخدام شبكة عصبية واحدة

شهد توجيه الوجه (face alignment) تقدماً ملحوظاً خلال العقد الماضي. أحد المجالات التي ركزت عليها الأبحاث الحديثة هو محاذاة شكل وجه ثلاثي الأبعاد كثيف إلى صور الوجه بزوايا رأس كبيرة. التكنولوجيا المهيمنة المستخدمة تعتمد على سلسلة من المصنفات، مثل شبكات الاعصاب المتعمقة (CNN)، والتي أظهرت نتائج واعدة. ومع ذلك، تعاني سلسلة شبكات الاعصاب المتعمقة (CNNs) من عدة عيوب، مثل عدم وجود تدريب شامل من النهاية إلى النهاية، والخصائص المصممة يدوياً، وسرعة التدريب البطيئة. لحل هذه المشكلات، نقترح طبقة جديدة تسمى طبقة التصور (visualization layer)، يمكن دمجها في هندسة شبكات الاعصاب المتعمقة (CNN) وتتيح تحقيق الأمثل المشترك مع دوال الخسارة المختلفة. أظهرت التقييمات الواسعة للطريقة المقترحة على عدة قواعد بيانات دقة غير مسبوقة، بينما تم تقليص وقت التدريب بأكثر من النصف مقارنة بسلسلة شبكات الاعصاب المتعمقة التقليدية (CNNs). بالإضافة إلى ذلك، قمنا بمقارنة العديد من هياكل شبكات الاعصاب المتعمقة (CNN) مع طبقة التصور لتأكيد فوائد استخدامها بشكل أكبر.