SceneSplat: فهم المشهد المستند إلى التبديد الغاوسي مع التدريب المسبق للرؤية واللغة

التعرف على فئات عشوائية أو لم تُرَ من قبل يُعد أمرًا بالغ الأهمية لفهم شامل للمساحات ثلاثية الأبعاد في العالم الحقيقي. حاليًا، تعتمد جميع الطرق الحالية على الوسائط ثنائية الأبعاد أو النصية أثناء التدريب، أو تستخدمها معًا أثناء الاستدلال. ويُبرز هذا الافتقار الواضح إلى وجود نموذج قادر على معالجة البيانات ثلاثية الأبعاد وحدها لتعلم المعاني من البداية إلى النهاية، إلى جانب البيانات الضرورية لتدريب مثل هذا النموذج. في الوقت نفسه، ظهرت تقنية "تَسْمِيع الغوسيان الثلاثي الأبعاد" (3D Gaussian Splatting - 3DGS) كالمعيار الفعلي لتمثيل المشاهد ثلاثية الأبعاد في مختلف المهام البصرية. ومع ذلك، لا يزال التكامل الفعّال للاستدلال المعنوي في 3DGS بطريقة قابلة للتوسع يُعد تحديًا مفتوحًا. ولحل هذه القيود، نقدّم "SceneSplat"، إلى أعرفنا، أول منهجية واسعة النطاق لفهم المشاهد الداخلية ثلاثية الأبعاد تعمل بشكل أصلي على 3DGS. علاوةً على ذلك، نقترح خطة تعلّم ذاتي (self-supervised) تتيح استخلاص ميزات ثلاثية الأبعاد غنية من المشاهد غير المُعلَّمة. ولتمكين هذه الطرق المقترحة، نقدّم "SceneSplat-7K"، أول مجموعة بيانات كبيرة النطاق مبنية على 3DGS للمشاهد الداخلية، وتشمل 7916 مشهدًا مستمدة من سبع مجموعات بيانات معروفة، مثل ScanNet وMatterport3D. ويتطلب إنشاء SceneSplat-7K موارد حسابية تعادل 150 يومًا من استخدام وحدة معالجة الرسومات L4، مما يمكّن من إجراء تقييم معياري للتحليل القائم على 3DGS في المشاهد الداخلية. وتبين تجاربنا الشاملة على SceneSplat-7K الفائدة الكبيرة للمنهجية المقترحة مقارنةً بالأساليب الأساسية المتعارف عليها.