GRAF: حقول الإشعاع التوليدية للصورة ثلاثية الأبعاد

بينما مكّنت شبكات المواجهة التوليدية ثنائية الأبعاد (2D Generative Adversarial Networks) من توليد صور عالية الدقة، فإنها تعاني في الغالب من نقص فهم العالم ثلاثي الأبعاد وعملية تكوين الصورة. ولذلك، لا توفر هذه الشبكات تحكمًا دقيقًا في زاوية عرض الكاميرا أو وضعية الكائن. لحل هذه المشكلة، اعتمد العديد من الطرق الحديثة على تمثيلات وسيطة قائمة على الفوكسل (Voxel-Based Representations) بالاشتراك مع التحويل التفاضلي (Differentiable Rendering). ومع ذلك، فإن الطرق الحالية إما تنتج صورًا ذات دقة منخفضة أو تفشل في فصل خصائص الكاميرا والمشهد، مثل أن الهوية الكائن قد تتغير مع زاوية العرض. في هذا البحث، نقترح نموذجًا توليديًا للحقول الإشعاعية (Radiance Fields)، والتي أثبتت نجاحها مؤخرًا في توليد آراء جديدة لمشهد واحد. بخلاف التمثيلات القائمة على الفوكسل، لا تكون الحقول الإشعاعية مقيدة بتمثيل خشن للمكان ثلاثي الأبعاد، بل تسمح بفصل خصائص الكاميرا والمشهد بينما تنخفض أداؤها بشكل متدرج في وجود غموض إعادة بناء. عن طريق تقديم مميز متعدد المقاييس قائم على الرقع (Multi-Scale Patch-Based Discriminator)، نظهر كيفية إنتاج صور عالية الدقة أثناء تدريب نموذجنا من صور ثنائية الأبعاد غير مرتبطة بمواقع فقط. قمنا بتحليل منهجي لنهجنا على عدة مجموعات بيانات اصطناعية وحقيقية صعبة. كشفت تجاربنا أن الحقول الإشعاعية هي تمثيل قوي لتوليد الصور، مما يؤدي إلى نماذج ثابتة ثلاثيًا تقوم بتوليد الصور بدقة عالية.