HyperAIHyperAI
منذ 17 أيام

GAUDI: معمارية عصبية لتصنيع مشاهد ثلاثية الأبعاد غامرة

Miguel Angel Bautista, Pengsheng Guo, Samira Abnar, Walter Talbott, Alexander Toshev, Zhuoyuan Chen, Laurent Dinh, Shuangfei Zhai, Hanlin Goh, Daniel Ulbricht, Afshin Dehghan, Josh Susskind
GAUDI: معمارية عصبية لتصنيع مشاهد ثلاثية الأبعاد غامرة
الملخص

نُقدِّم نموذج GAUDI، وهو نموذج توليدية قادر على التقاط توزيع المشاهد ثلاثية الأبعاد المعقدة والواقعية، والتي يمكن عرضها بشكل غامِر من خلال كاميرا متحركة. نعالج هذه المشكلة الصعبة باستخدام نهج قابل للتوسع ولكنه قوي، حيث نُحسِّن أولاً تمثيلاً خفيًا يفصل بين الحقول الإشعاعية ووضعيات الكاميرا. ثم يستخدم هذا التمثيل الخفي لتعلم نموذج توليدي يمكّن من إنشاء المشاهد ثلاثية الأبعاد بشكل غير مشروط ومشروط. يعمّم نموذجنا الأعمال السابقة التي ركّزت على كائنات واحدة من خلال إزالة الافتراض القائل بأن توزيع وضعيات الكاميرا يمكن مشاركته بين العينات. ونُظهر أن GAUDI يحقق أداءً رائدًا في السياق التوليدي غير المشروط عبر عدة مجموعات بيانات، كما يمكّن من إنشاء مشاهد ثلاثية الأبعاد بشروط معطاة، مثل ملاحظات صورية متباعدة أو نصوص تصف المشهد.