CIPS-3D: مولد GANs القائم على تركيب البكسل بشروط الاستقلال مع الوعي ثلاثي الأبعاد

حقق معمارية الشبكة التوليدية المتنافسة القائمة على الأسلوب (StyleGAN) نتائجًا رائدة في توليد صور عالية الجودة، لكنها تعاني من نقص في السيطرة الصريحة والدقيقة على وضعيات الكاميرا. أحرزت الشبكات التوليدية المتنافسة القائمة على NeRF تقدمًا كبيرًا نحو مولدات واعية ثلاثية الأبعاد، ولكنها لا تزال غير قادرة على إنتاج صور عالية الجودة. يقدم هذا البحث CIPS-3D، وهو مولد قائم على الأسلوب وواعٍ بالبعد الثالث يتكون من شبكة NeRF سطحية وشبكة تمثيل عصبي ضمني عميقة (INR). يقوم المولد بتوليد قيمة كل بكسل بشكل مستقل دون أي عملية تجميع فضائي أو زيادة الحجم. بالإضافة إلى ذلك، نقوم بتشخيص مشكلة التناظر المرآتي التي تشير إلى حل غير مثالي وحلها من خلال تقديم مميز مساعد. تم تدريب CIPS-3D على صور ثنائية البعد خامصة من زاوية واحدة، ويحدد رقماً قياسياً جديداً في توليد الصور الواعية بالبعد الثالث مع مؤشر FID مثير للإعجاب يبلغ 6.97 لصور بدقة $256\times256$ على مجموعة بيانات FFHQ. كما نوضح عدة اتجاهات مثيرة للاهتمام لمولد CIPS-3D مثل التعلم النقل والتنميط الوجهي الواعي بالبعد الثالث. يمكن مشاهدة أفضل نتائج التركيب كمقاطع فيديو، لذا ننصح القراء بمراجعة مشروعنا على GitHub عبر الرابط:https://github.com/PeterouZh/CIPS-3D