اكتشاف الوجه مع دمج شامل لنموذج الشبكة العصبية المت convo�utive (ConvNet) ونموذج ثلاثي الأبعاد (3D)

يقدم هذا البحث طريقة للكشف عن الوجوه في بيئات حقيقية، تدمج بين شبكة الـ ConvNet ونموذج الوجه المتوسط ثلاثي الأبعاد في إطار تعلم تمييزي متعدد المهام من النهاية إلى النهاية. يتم تعريف نموذج الوجه المتوسط ثلاثي الأبعاد مسبقًا ويكون ثابتًا (مثل، استخدمنا النموذج المقدم في مجموعة بيانات AFLW). تتكون الشبكة العصبية التلافيفية (ConvNet) من مكونين رئيسيين: (i) مكون اقتراح الوجه يقوم بحساب اقتراحات صناديق الحدود للوجه من خلال تقدير نقاط المفتاح للوجه والparameters التحويلية ثلاثية الأبعاد (الدوران والتنقل) لكل نقطة مفتاح متوقعة بالنسبة لنموذج الوجه المتوسط ثلاثي الأبعاد. (ii) مكون التحقق من الوجه يقوم بحساب نتائج الكشف عن طريق قص وتحسين المقترحات بناءً على تجميع التكوين بناءً على نقاط المفتاح للوجه.تتعامل الطريقة المقترحة مع مشكلتين في تكييف شبكات الكشف عن الأجسام العامة الأكثر تقدمًا (مثل، أسرع R-CNN) للكشف عن الوجوه: (i) الأولى هي القضاء على تصميم القواعد البديهية لصناديق المرجع المحددة مسبقًا في شبكة اقتراح المناطق (RPN) من خلال الاستفادة من نموذج الوجه المتوسط ثلاثي الأبعاد. (ii) الثانية هي استبدال طبقة جمع المناطق ذات الفائدة العامة (RoI Pooling Layer) بطبقة جمع التكوين لتوفير احترام الهياكل الأساسية للأجسام. يتكون الخسارة المتعددة المهام من ثلاثة شروط: خسارة Softmax التصنيفية وخسائر l1 السلسة للمواقع لكل من نقاط المفتاح للوجه وصناديق الحدود للوجه [14].في التجارب، تم تدريب شبكتنا العصبية التلافيفية على مجموعة بيانات AFLW فقط واختبارها على مقاييس FDDB مع التعديل الدقيق وعلى مقاييس AFW بدون تعديل دقيق. حققت الطريقة المقترحة أداءً تنافسيًا يواكب أفضل ما هو موجود حاليًا في كلا المقاييس.注释:- "parameters" 翻译为 "المعلمات",但为了保持术语的一致性和完整性,这里直接使用了英文。- "l1" 翻译为 "l1" 以保持数学符号的一致性。