DreamFusion: النص إلى 3D باستخدام التباين ثنائي الأبعاد

أدت التطورات الحديثة في تركيب الصور من النصوص إلى نماذج التشتت التي تم تدريبها على مليارات أزواج صورة-نص. لتطبيق هذا النهج على التركيب ثلاثي الأبعاد، سيتطلب الأمر مجموعات بيانات ضخمة مُعلَّمة من البيانات ثلاثية الأبعاد، بالإضافة إلى هياكل فعّالة لتنقية البيانات ثلاثية الأبعاد، ولا توجد أي من هذه العناصر حاليًا. في هذه الدراسة، نتفادى هذه القيود من خلال استخدام نموذج تشتت ثنائي الأبعاد مُدرّب مسبقًا لتنفيذ التحويل من النص إلى ثلاثي الأبعاد. نقدّم خسارة تعتمد على تبادل كثافة الاحتمالات، والتي تسمح باستخدام نموذج التشتت ثنائي الأبعاد كـ "مُقدّم" (prior) لتحسين مُولّد صورة مُعامَل (parametric image generator). باستخدام هذه الخسارة في إجراء شبيه بـ DeepDream، نُحسّن نموذجًا ثلاثي الأبعاد مُبدَأً عشوائيًا (نظام إشعاعي عصبي، أو NeRF) عبر التناقص التدرجي، بحيث تحقق صوره المُرسَلة ثنائية الأبعاد من زوايا عشوائية خسارة منخفضة. يمكن عرض النموذج ثلاثي الأبعاد الناتج للنص المُعطى من أي زاوية، وإعادة إضاءته بتوهجات متنوعة، أو دمجه في أي بيئة ثلاثية الأبعاد. يُعدّ هذا النهج لا يتطلب بيانات تدريب ثلاثية الأبعاد، ولا أي تعديلات على نموذج التشتت الصوري، مما يُظهر فعالية النماذج الصورية المُدرّبة مسبقًا كمُقدّمات (priors).