إلى إعادة بناء الوجه ثلاثي الأبعاد في التصوير المنظوري: تقدير وضعية الوجه بستة درجات من الحرية من صورة أحادية

في إعادة بناء الوجه ثلاثي الأبعاد، تم استخدام التصوير المتعامد على نطاق واسع كبديل للتصوير الوهني بهدف تبسيط عملية التكييف. ويُظهر هذا التقريب أداءً جيدًا عندما يكون المسافة بين الكاميرا والوجه كبيرة بما يكفي. ومع ذلك، في بعض السيناريوهات التي يكون فيها الوجه قريبًا جدًا من الكاميرا أو يتحرك على طول محور الكاميرا، تتأثر الطرق بنتائج إعادة بناء غير دقيقة وتقدير غير مستقر للحركة الزمنية ناتج عن التشوه الناتج عن التصوير الوهني. وفي هذه الورقة، نهدف إلى معالجة مشكلة إعادة بناء الوجه ثلاثي الأبعاد من صورة واحدة تحت تأثير التصوير الوهني. بشكل خاص، نقترح شبكة عصبية عميقة تُسمى "شبكة التصوير (PerspNet)"، التي تُعيد بناء شكل الوجه ثلاثي الأبعاد في الفضاء القياسي (canonical space) وتعلم العلاقة بين بكسلات الصورة الثنائية الأبعاد والنقاط ثلاثية الأبعاد في آن واحد، مما يمكّن من تقدير وضعية الوجه بـ 6 درجات حرية (6DoF) لتمثيل التصوير الوهني. بالإضافة إلى ذلك، نقدم مجموعة بيانات كبيرة تُسمى ARKitFace لتمكين تدريب وتقدير حلول إعادة بناء الوجه ثلاثي الأبعاد في سيناريوهات التصوير الوهني، وتضم هذه المجموعة 902,724 صورة واقعية ثنائية الأبعاد للوجه، مع نموذج وجه ثلاثي الأبعاد دقيق (ground-truth) وبيانات مُعلّمة لمعاملات وضعية 6DoF. تُظهر النتائج التجريبية أن منهجنا يتفوق على أحدث الطرق المطورة بفارق كبير. يمكن الوصول إلى الكود والبيانات من خلال الرابط: https://github.com/cbsropenproject/6dof_face.