استكشاف فهم المشهد ثلاثي الأبعاد بكفاءة في استخدام البيانات من خلال السياقات المتناظرة للمشهد

شهد التقدم السريع في فهم المشاهد ثلاثية الأبعاد تزايدًا متزايدًا في الطلب على البيانات؛ ومع ذلك، يُعد جمع وتصنيف المشاهد ثلاثية الأبعاد (مثل السحاب النقطية) أمرًا معروفًا بصعوبته البالغة. على سبيل المثال، قد يكون عدد المشاهد (مثل الغرف الداخلية) التي يمكن الوصول إليها ومسحها محدودًا؛ وحتى مع توفر كمية كافية من البيانات، يتطلب الحصول على التسميات ثلاثية الأبعاد (مثل أقنعة المثيلات) جهدًا بشريًا مكثفًا. في هذا البحث، نستكشف تعلمًا فعّالًا من حيث البيانات لسحاب النقط ثلاثية الأبعاد. كخطوة أولى نحو هذا الاتجاه، نقترح منهجية تدريب مسبق ثلاثية الأبعاد تُسمى "السياقات المشهدية التباينية" (Contrastive Scene Contexts)، والتي تستفيد من التقابلات على مستوى النقط والسياقات المكانية داخل المشهد. تحقق منهجيتنا نتائج من أفضل النتائج المُحققة على مجموعة متنوعة من المعايير، خاصةً في الحالات التي تكون فيها البيانات أو التسميات محدودة. تُظهر دراستنا أن التصنيف المُفصّل لسحاب النقط ثلاثية الأبعاد قد يكون غير ضروري؛ وبشكل ملحوظ، على بيانات ScanNet، نحقق حتى 89% (لفهم المثيلات) و96% (لفهم الدلاليات) من أداء النموذج الأساسي الذي يستخدم التسميات الكاملة، حتى عند استخدام 0.1% فقط من التسميات النقطية.