إيموكا: التقاط الوجه أحادي البعد المُحفَّز بالعاطفة وإنشاء الرسوم المتحركة

مع انتشار استخدام الأفاتار ثلاثية الأبعاد للوجه في الاتصالات، أصبح من الضروري أن تُعبّر هذه الأفاتار بدقة عن المشاعر. للأسف، فإن أفضل الطرق الحديثة التي تقوم باستخلاص نماذج الوجه ثلاثية الأبعاد المُعامَلة من صور مفردة (monocular images) لا تتمكن من التقاط الطيف الكامل للتعبيرات الوجهية، مثل المشاعر الخفية أو الشديدة. وجدنا أن مقاييس إعادة البناء القياسية المستخدمة في التدريب (خطأ إعادة تطابق النقاط المميزة، وخطأ التصوير الضوئي، وفقدان التعرف على الوجه) لا تكفي لالتقاط التعبيرات عالية الدقة. النتيجة هي هندسات وجوه لا تتماشى مع المحتوى العاطفي للصورة المدخلة. ونحل هذه المشكلة من خلال نموذجنا EMOCA (EMOtion Capture and Animation)، من خلال إدخال خسارة جديدة في التدريب تُعرف بـ "خسارة الاتساق العاطفي العميق" (deep perceptual emotion consistency loss)، والتي تساعد على ضمان تطابق التعبير ثلاثي الأبعاد المستعاد مع التعبير المُمثل في الصورة المدخلة. وعلى الرغم من أن EMOCA يحقق أخطاء في إعادة البناء ثلاثية الأبعاد تُقارن بالأساليب الأفضل حاليًا، فإنه يتفوق بشكل كبير عليها من حيث جودة التعبير المستعاد والمحتوى العاطفي المُدرَك. كما نُحدِّد مباشرة مستويات "القيمة" (valence) و"الاستثارة" (arousal)، ونصنف التعبيرات الأساسية من خلال المعاملات ثلاثية الأبعاد المقدرة للوجه. وفي مهمة التعرف على المشاعر في البيئات الطبيعية (in-the-wild emotion recognition)، يُقدّم نهجنا الهندسي الخالص أداءً يُوازي أفضل الأساليب القائمة على الصور، مما يُبرز القيمة الحقيقية للهندسة ثلاثية الأبعاد في تحليل السلوك البشري. يُتاح النموذج والكود مفتوحًا للجمهور عبر الرابط: https://emoca.is.tue.mpg.de.