HyperAIHyperAI
منذ 2 أشهر

المحاذاة السريعة للوجه أكثر من الوقت الفعلي: نهج شبكة التحويل المكاني ثلاثية الأبعاد في وضعيات غير مقيدة

Chandrasekhar Bhagavatula; Chenchen Zhu; Khoa Luu; Marios Savvides
المحاذاة السريعة للوجه أكثر من الوقت الفعلي: نهج شبكة التحويل المكاني ثلاثية الأبعاد في وضعيات غير مقيدة
الملخص

المحاذاة الوجهية تشمل العثور على مجموعة من نقاط المعلم في صورة لها معنى دلالي معروف. ومع ذلك، يُفقد هذا المعنى الدلالي لنقاط المعلم غالبًا في النهج ثنائية الأبعاد حيث يتم نقل النقاط إلى الحدود المرئية أو تجاهلها عند تغيير وضعية الوجه. لاستخراج نقاط محاذاة متسقة عبر وضعيات واسعة، يجب النظر إلى البنية ثلاثية الأبعاد للوجه في خطوة المحاذاة. ومع ذلك، استخراج بنية ثلاثية الأبعاد من صورة ثنائية الأبعاد واحدة يتطلب غالبًا المحاذاة في المقام الأول. نقدم هنا نهجنا الجديد لاستخراج الشكل ثلاثي الأبعاد للوجه والمحاذاة ثنائية الأبعاد ذات المعنى الدلالي المتسق بشكل متزامن باستخدام شبكة التحويل المكاني ثلاثية الأبعاد (3DSTN) لنمذجة كل من مصفوفة الإسقاط الكاميرا ومعلمات التحريف لنموذج ثلاثي الأبعاد. من خلال استخدام نموذج عام ثلاثي الأبعاد ودالة تحريف لوحة الرقيقة (TPS)، نتمكن من إنشاء أشكال ثلاثية الأبعاد خاصة بالموضوع دون الحاجة إلى قاعدة أشكال كبيرة ثلاثية الأبعاد. بالإضافة إلى ذلك، يمكن تدريب شبكتنا المقترحة في إطار شامل من النهاية إلى النهاية على بيانات اصطناعية بالكامل من مجموعة البيانات 300W-LP. بخلاف الأساليب الثلاثية الأبعاد الأخرى، يتطلب نهجنا مرورًا واحدًا فقط عبر الشبكة مما يؤدي إلى محاذاة أسرع من الوقت الحقيقي. تقييمات نموذجنا على مجموعتي البيانات Annotated Facial Landmarks in the Wild (AFLW) و AFLW2000-3D تظهر أن طريقتنا تحقق أداءً رائدًا على الأساليب الثلاثية الأبعاد الأخرى للمحاذاة.