إعادة بناء الوجه ثلاثي الأبعاد بزوايا كبيرة من صورة واحدة عبر الانحدار المباشر لشبكة CNN الحجمية

إعادة بناء الوجه ثلاثي الأبعاد هي مشكلة أساسية في مجال الرؤية الحاسوبية ذات صعوبة استثنائية. تفترض الأنظمة الحالية غالبًا توفر صور متعددة للوجه (أحيانًا من نفس الشخص) كمدخلات، ويتعين عليها مواجهة عدد من التحديات المنهجية مثل إنشاء مراسلات كثيفة عبر وضعيات وتعبيرات وجهية متنوعة والإضاءة غير المتجانسة. عمومًا، تتطلب هذه الأساليب خطوط عمل معقدة وكفاءتها منخفضة لبناء النماذج وتلائمها. في هذا البحث، نقترح التعامل مع العديد من هذه القيود من خلال تدريب شبكة عصبية ارتباطية (CNN) على مجموعة بيانات مناسبة تتكون من صور ثنائية الأبعاد ونماذج أو مسحوق للوجه ثلاثي الأبعاد. تعمل شبكتنا العصبية الارتباطية باستخدام صورة واحدة فقط ثنائية الأبعاد للوجه، ولا تتطلب تطابقًا دقيقًا ولا تقوم بإنشاء مراسلات كثيفة بين الصور، تعمل مع وضعيات وتعبيرات وجهية تعسفية، ويمكن استخدامها لإعادة بناء الهندسة الكاملة للوجه ثلاثي الأبعاد (بما في ذلك أجزاء الوجه غير المرئية) دون الحاجة إلى بناء (خلال التدريب) وتلائم (خلال الاختبار) نموذج قابل للتغير ثلاثي الأبعاد. نحقق هذا عن طريق هندسة بسيطة لشبكة عصبية ارتباطية تقوم بالتقدير المباشر لممثل حجمي لهندسة الوجه ثلاثي الأبعاد من صورة ثنائية الأبعاد واحدة. كما نوضح كيف يمكن دمج مهمة تحديد معالم الوجه ذات الصلة في الإطار المقترح وكيف يمكن أن تساعد في تحسين جودة إعادة الإعمار، خاصةً في حالات وضعيات وتعبيرات وجهية كبيرة. سيتم توفير رمز الاختبار عبر الإنترنت بالإضافة إلى النماذج المدربة مسبقًا: http://aaronsplace.co.uk/papers/jackson2017recon