التحريك الغاوسي التوليدي لتخيل المدن ثلاثية الأبعاد غير المحدودة

تُظهر طرق التوليد ثلاثية الأبعاد للمدن باستخدام الأساليب القائمة على NeRF نتائج توليد واعدة، لكنها غير فعالة من حيث الحوسبة. في الآونة الأخيرة، ظهرت تقنية التبديد ثلاثي الأبعاد باستخدام الغاوسيان (3D Gaussian Splatting - 3D-GS) كبديل عالي الكفاءة لتطبيقات التوليد ثلاثي الأبعاد على مستوى الكائنات. ومع ذلك، فإن تعديل 3D-GS من الكائنات ثلاثية الأبعاد ذات الحجم المحدود (مثل الأشخاص أو الكائنات) إلى مدن ثلاثية الأبعاد ذات الحجم اللانهائي ليس أمرًا سهلاً. ينطوي التوليد ثلاثي الأبعاد غير المحدود للمدن على عبء تخزين كبير (مشكلات نفاد الذاكرة)، ناتجة عن الحاجة إلى توسيع عدد النقاط إلى مليارات، مما يستدعي غالبًا مئات جيجابايت من ذاكرة الفيديو (VRAM) لمشهد مدينة يمتد على مساحة 10 كم². في هذه الورقة، نقترح "GaussianCity"، وهي إطار عمل مبني على التبديد الغاوسيان التوليدي، مخصص لتوليد مدن ثلاثية الأبعاد غير محدودة بكفاءة من خلال عملية واحدة فقط من التغذية الأمامية (feed-forward). تكمن رؤيتنا الأساسية في جوانب متعددة:1) تمثيل ثلاثي الأبعاد مكثف: نُقدِّم تمثيلًا وسيطًا مكثفًا يُسمى BEV-Point، والذي يضمن أن يظل نمو استهلاك ذاكرة الفيديو (VRAM) ثابتًا حتى في المشاهد غير المحدودة، مما يمكّن من التوليد غير المحدود للمدن.2) فكّ الترميز الخاص بالغاوسيان المُدرك للمساحة: نُقدِّم فاكِّ ترميز BEV-Point المُدرك للمساحة لإنتاج خصائص الغاوسيان ثلاثية الأبعاد، والذي يستخدم تقنية Point Serializer لدمج الخصائص البنائية والسياقية للنقاط في الرؤية من الأعلى (BEV).أظهرت التجارب الواسعة أن GaussianCity تحقق نتائج رائدة في توليد المدن ثلاثية الأبعاد من منظور الطائرة المسيرة (drone-view) ومنظور الشارع (street-view). وبشكل لافت، تتفوّق GaussianCity على CityDreamer من حيث الأداء، مع تسريع يصل إلى 60 مرة (10.72 إطارًا في الثانية مقابل 0.18 إطارًا في الثانية).