HyperAIHyperAI
منذ 11 أيام

Latent-NeRF للإنشاء الموجه بالشكل لأشكال ثلاثية الأبعاد وملامحها

Gal Metzer, Elad Richardson, Or Patashnik, Raja Giryes, Daniel Cohen-Or
Latent-NeRF للإنشاء الموجه بالشكل لأشكال ثلاثية الأبعاد وملامحها
الملخص

أظهر التوليد الموجه بالنص صورة متقدمة بشكل كبير في السنوات الأخيرة، مما أدى إلى تقدم كبير في مجال توليد الأشكال الموجهة بالنص. في الآونة الأخيرة، تبين أن استخدام تقنية تبديد الدالة (score distillation) يمكن أن يُسهم بنجاح في توجيه نموذج NeRF لتوليد كائن ثلاثي الأبعاد. نُعدّل هذه التقنية لتناسب نماذج التمايز الخفي (Latent Diffusion Models) المتاحة للجمهور وبكفاءة حسابية عالية، والتي تطبّق عملية التمايز بالكامل في فضاء خفي مدمج لمحول تلقائي مُدرّب مسبقًا. وبما أن نماذج NeRF تعمل في فضاء الصورة، فإن الحل البسيط لتوجيهها باستخدام تبديد الدالة الخفية يتطلب تشفيرًا إلى الفضاء الخفي في كل خطوة توجيهية. بدلًا من ذلك، نقترح نقل نموذج NeRF إلى الفضاء الخفي، مما يؤدي إلى ما يُعرف بـ "NeRF الخفي" (Latent-NeRF). من خلال تحليل نموذجنا Latent-NeRF، نُظهر أن نماذج التوليد من النص إلى 3D، رغم قدرتها على إنتاج نتائج مذهلة، فهي بطبيعتها غير مُقيّدة، وقد تفتقر إلى القدرة على توجيه أو فرض هيكل ثلاثي الأبعاد محدد. لمساعدة وتوجيه عملية التوليد ثلاثية الأبعاد، نقترح توجيه نموذجنا Latent-NeRF باستخدام "مخطط شكل" (Sketch-Shape): وهي هندسة مجردة تُحدّد البنية العامة للكائن المطلوب. ثم نقدّم وسائل لدمج هذا القيد مباشرة داخل نموذج Latent-NeRF. يُتيح هذا التوليف الفريد للتوجيه النصي والشكل تحسينًا كبيرًا في التحكم بعملية التوليد. كما نُظهر أن تبديد الدالة الخفية يمكن تطبيقه بنجاح مباشرة على الشبكات ثلاثية الأبعاد (3D meshes)، مما يسمح بتوليد نسيج عالي الجودة على هندسة معطاة. تؤكد تجاربنا على قوة أشكال التوجيه المختلفة لدينا، وعلى كفاءة استخدام التصوير الخفي. يمكن الاطلاع على التنفيذ عبر الرابط: https://github.com/eladrich/latent-nerf

Latent-NeRF للإنشاء الموجه بالشكل لأشكال ثلاثية الأبعاد وملامحها | أحدث الأوراق البحثية | HyperAI