موسار: نموذج منظور واحد شبه مُراقب لإعادة بناء الواجهات باستخدام الظل القابل للتفاضل

إعادة بناء صورة مُصغّرة (Avatar) من صورة وجه تُعدّ لها تطبيقات عديدة في الوسائط المتعددة، لكنها تظل مشكلة بحثية صعبة. إن استخلاص خرائط الانعكاس والهندسة من صورة واحدة يُعدّ مشكلة غير محددة جيدًا: فاستعادة الهيكل الهندسي تمثل مشكلة تقابل واحدٍ إلى كثير، كما أن فصل خصائص الانعكاس والإضاءة يُعدّ أمرًا معقدًا. يمكن التقاط هندسة وانعكاس دقيقين في ظروف مُسيطر عليها باستخدام "مختبر الإضاءة" (light stage)، لكن جمع مجموعات بيانات كبيرة بهذه الطريقة مكلف للغاية. علاوةً على ذلك، فإن التدريب فقط على بيانات من هذا النوع يؤدي إلى أداء ضعيف في التعميم على الصور الواقعية (in-the-wild). هذا يدفعنا إلى تقديم منهجية تُسمى MoSAR، وهي طريقة لإنشاء صور مُصغّرة ثلاثية الأبعاد من صور مفردة (Monocular Images). نقترح خطة تدريب شبه مراقبة (semi-supervised) تُحسّن من قدرة التعميم من خلال التعلم من كلا نوعي البيانات: بيانات مختبر الإضاءة والصور الواقعية. ويتم تحقيق ذلك باستخدام صيغة جديدة قابلة للتفاضل (differentiable shading). نُظهر أن منهجيتنا تُفكّك بنجاح المعاملات الجوهرية للوجه، مما يؤدي إلى إنشاء صور مُصغّرة يمكن إعادة إضاءتها. ونتيجة لذلك، تقدّم MoSAR تقديرًا لأكثر مجموعة من خرائط انعكاس البشرة، وتُنتج صورًا مُصغّرة أكثر واقعية مقارنةً بالأساليب الحالية الرائدة. كما نُقدّم مجموعة بيانات جديدة تُسمى FFHQ-UV-Intrinsics، وهي أول مجموعة بيانات عامة توفر السمات الجوهرية للوجه على نطاق واسع (خرائط التوزيع، الانعكاسية، الظلال البيئية، والشفافية) لعدد إجمالي يبلغ 10,000 شخص. يمكن الوصول إلى موقع المشروع وتنزيل مجموعة البيانات من الرابط التالي: https://ubisoft-laforge.github.io/character/mosar/