HyperAIHyperAI
منذ 9 أيام

LightGaussian: ضغط ثلاثي الأبعاد غير محدود لـ Gaussian مع تقليل بنسبة 15x وسرعة 200+ إطارًا في الثانية

Zhiwen Fan, Kevin Wang, Kairun Wen, Zehao Zhu, Dejia Xu, Zhangyang Wang
LightGaussian: ضغط ثلاثي الأبعاد غير محدود لـ Gaussian مع تقليل بنسبة 15x وسرعة 200+ إطارًا في الثانية
الملخص

أحدث التطورات في التصوير العصبي في الزمن الحقيقي باستخدام تقنيات قائمة على النقاط ساهمت في توسيع اعتماد تمثيلات ثلاثية الأبعاد. ومع ذلك، فإن النماذج الأساسية مثل التباعد الثلاثي الأبعاد للغاوسيان (3D Gaussian Splatting) تفرض حملًا كبيرًا على التخزين، حيث يمكن أن تصل نقاط بناء البنية من الحركة (SfM) إلى ملايين النقاط، مما يستدعي مساحات تخزين تصل إلى جيجابايت لمشهد ثلاثي الأبعاد غير محدود. يشكل هذا النمو تحديات في القابلية للتوسع ويقلل من كفاءة التباعد. ولحل هذه المشكلة، نقدّم "LightGaussian"، وهي طريقة لتحويل الغاوسيان الثلاثية الأبعاد إلى صيغة أكثر كفاءة من حيث الحجم. مستوحاة من تقنية تقليل الشبكات (Network Pruning)، تحدد LightGaussian الغاوسيان ذات الأهمية العالمية المنخفضة في إعادة بناء المشهد، ثم تطبّق عملية تقليل التكرار واسترجاع البيانات لتقليل التكرار مع الحفاظ على الجودة البصرية. تلي ذلك تقنيات نقل المعرفة (Knowledge Distillation) وتوسيع الصور الافتراضية (Pseudo-view Augmentation) لنقل معاملات التوافيق الكروية إلى درجة أقل، مما ينتج تمثيلات أكثر كفاءة. كما يُستخدم تجزئة المتجهات الغاوسيّة (Gaussian Vector Quantization) بناءً على الأهمية العالمية لكل غاوسيان، مما يقلل من عرض البت بحد أدنى من فقدان الدقة. تحقق LightGaussian معدل ضغط متوسط يبلغ 15 مرة، مع رفع معدل الإطارات بالثانية (FPS) من 144 إلى 237 ضمن إطار عمل 3D-GS، مما يمكّن من تمثيل فعّال للمشاهد المعقدة على مجموعتي بيانات Mip-NeRF 360 وTank & Temple. كما تُظهر الطريقة المقترحة لتقليم الغاوسيان قابلية عالية للتكيف مع تمثيلات ثلاثية الأبعاد أخرى (مثل Scaffold-GS)، مما يدل على قدرات تعميم قوية.

LightGaussian: ضغط ثلاثي الأبعاد غير محدود لـ Gaussian مع تقليل بنسبة 15x وسرعة 200+ إطارًا في الثانية | أحدث الأوراق البحثية | HyperAI