HyperAIHyperAI
منذ 11 أيام

SceneDreamer: إنشاء مشاهد ثلاثية الأبعاد غير محدودة من مجموعات صور ثنائية الأبعاد

Zhaoxi Chen, Guangcong Wang, Ziwei Liu
SceneDreamer: إنشاء مشاهد ثلاثية الأبعاد غير محدودة من مجموعات صور ثنائية الأبعاد
الملخص

في هذه الدراسة، نقدّم "SceneDreamer"، نموذجًا توليديًا غير مشروط للمناظر ثلاثية الأبعاد غير المحدودة، والذي يُولّد مناظر ثلاثية الأبعاد واسعة النطاق من ضوضاء عشوائية. يتم تعلّم إطار عملنا فقط من مجموعات صور ثنائية الأبعاد مُلتقطة في البيئة الطبيعية (in-the-wild)، دون الحاجة إلى أي تسميات ثلاثية الأبعاد. وتمثّل القاعدة الأساسية لـ SceneDreamer نموذجًا تعلميًا مبنيًا على مبادئ واضحة، يتضمن: 1) تمثيل ثلاثي الأبعاد فعّال وقادر على التعبير، 2) بارامترization توليدية للمنظر، و3) مُرسّم فعّال يمكنه استغلال المعرفة المستمدة من الصور الثنائية الأبعاد. يبدأ نهجنا بتمثيل مُحَوَّل من منظور طائر (Bird's-eye-view - BEV) كفّيّة، يتم إنشاؤه من ضوضاء بسيطة (simplex noise)، ويشمل مجال ارتفاع السطح (height field) لتمثيل الارتفاعات السطحية، ومجالًا دلاليًا (semantic field) لتمثيل الدلالة التفصيلية للمنظر. يمكّن هذا التمثيل الثلاثي الأبعاد من: 1) تمثيل المشهد ثلاثي الأبعاد بتعقيد تربيعي، 2) فصل هندسة المشهد عن دلالته، و3) تدريب فعّال. علاوةً على ذلك، نقترح شبكة عصبية هاش جديدة (generative neural hash grid) لبارامترization الفضاء المخفي بناءً على المواقع ثلاثية الأبعاد ودلالة المشهد، بهدف تشفير ميزات قابلة للتوسع والتطبيق عبر مشاهد مختلفة. أخيرًا، نستخدم مُرسّمًا حيويًا ثلاثي الأبعاد (neural volumetric renderer)، تم تعلّمه من مجموعات الصور الثنائية الأبعاد عبر تدريب مُضاد (adversarial training)، لإنتاج صور واقعية بصريًا. تُظهر التجارب الواسعة فعالية SceneDreamer، وتفوّقه على أحدث الطرق في إنشاء عوالم ثلاثية الأبعاد غير محدودة وحيوية ومتنوعة.

SceneDreamer: إنشاء مشاهد ثلاثية الأبعاد غير محدودة من مجموعات صور ثنائية الأبعاد | أحدث الأوراق البحثية | HyperAI