ماجيك3D: إنشاء محتوى ثلاثي الأبعاد من النص عالي الدقة

أظهرت نموذج DreamFusion مؤخرًا فائدة النموذج المُدرَّب مسبقًا لتحويل النص إلى صورة باستخدام نموذج التبديد (diffusion)، في تحسين حقول الإشعاع العصبي (NeRF)، مما أدى إلى نتائج مبهرة في التوليد النصي-الثلاثي الأبعاد (text-to-3D). ومع ذلك، يعاني هذا الأسلوب من قيود ذاتية مزدوجة: (أ) بطء شديد في عملية تحسين NeRF، و(ب) مراقبة في فضاء الصور منخفضة الدقة على NeRF، ما يؤدي إلى نماذج ثلاثية الأبعاد منخفضة الجودة وبمدة معالجة طويلة. في هذه الورقة، نعالج هاتين المشكلتين من خلال استخدام إطار عمل تحسين مزدوج المرحلة. أولاً، نحصل على نموذج أولي باستخدام بيئة تبديد منخفضة الدقة، ونُسرّع العملية باستخدام هيكل شبكة ثلاثية الأبعاد نادرة (sparse 3D hash grid). ثم، باستخدام التمثيل الأولي كمُدخل ابتدائي، نُحسّن نموذج شبكة ثلاثية الأبعاد مُطلية بفعالية باستخدام مُنظِّر قابل للتفاضل بكفاءة، يتواصل مع نموذج تبديد في الفضاء الخفي عالي الدقة. يُسمّى أسلوبنا Magic3D، وقد أتاح لنا إنشاء نماذج شبكيّة ثلاثية الأبعاد عالية الجودة خلال 40 دقيقة فقط، أي بسرعة تفوق ضعف سرعة DreamFusion (التي تبلغ 1.5 ساعة متوسطة حسب التقارير)، مع تحقيق دقة أعلى. أظهرت دراسات المستخدمين أن 61.7% من المُقيّمين أبدوا تفضيلهم لأسلوبنا على DreamFusion. وبالإضافة إلى قدرات التوليد المشروط بالصورة، نقدّم للمستخدمين طرقًا جديدة للتحكم في التوليد ثلاثي الأبعاد، مما يفتح آفاقًا جديدة لتطبيقات إبداعية متنوعة.