ExpNet: تعبيرات وجهية ثلاثية الأبعاد بدون معالم، عميقة

نقدم طريقة تعتمد على التعلم العميق لتقدير معاملات التعبيرات ثلاثية الأبعاد للوجه. على عكس الأعمال السابقة، لا يعتمد عملية تقديرنا على طرق الكشف عن معالم الوجه كخطوة وسيطة. أظهرت الطرق الحديثة أن يمكن تدريب شبكة CNN على تقدير تمثيلات دقيقة ومميزة للنموذج القابل للتكيّف ثلاثي الأبعاد (3DMM) مباشرة من شدة الصور. من خلال تجاوز خطوة الكشف عن معالم الوجه، استطاعت هذه الطرق تقدير الأشكال للوجوه المغطاة التي تظهر في ظروف مشاهدة غير مسبوقة في البيئة الطبيعية. نبني على هذه الطرق ببيان أن التعبيرات الوجهية يمكن تقديرها أيضًا بواسطة نهج عميق وقوي وخالي من المعالم. يتم تطبيق شبكتنا ExpNet CNN مباشرة على شدة صورة الوجه وتقدير متجه بُعد 29 من معاملات التعبير ثلاثية الأبعاد. نقترح طريقة فريدة لجمع البيانات لتدريب هذه الشبكة، مستفيدين من قوة الشبكات العميقة في التعامل مع الضوضاء في بيانات التدريب. بالإضافة إلى ذلك، نقدم وسيلة جديدة لتقييم دقة معاملات التعبير المقدرة: من خلال قياس مدى جودة التقاطها للعواطف الوجهية على مقاييس التعرف على العواطف CK+ وEmotiW-17. نوضح أن شبكتنا ExpNet تنتج معاملات تعبير أفضل في تمييز العواطف الوجهية مقارنة بتلك التي يتم الحصول عليها باستخدام تقنيات الكشف عن المعالم الوجهية الأكثر تقدماً. علاوة على ذلك، يزداد هذا الفارق كلما انخفض حجم الصور، مما يدل على أن شبكتنا ExpNet أكثر قدرة على تحمل التغييرات في الحجم مقارنة بطرق الكشف عن المعالم. وأخيراً، عند نفس مستوى الدقة، تكون شبكتنا ExpNet أسرع بمراحل من بدائلها.