سوناتا: التعلم الذاتي المراقب لتمثيلات النقاط الموثوقة

في هذه الورقة، نتساءل عما إذا كان لدينا نموذج ذاتي التدريب للسحابة النقطية موثوق به يمكن استخدامه في مهام ثلاثية الأبعاد متنوعة من خلال التحقيق الخطي البسيط، حتى مع كمية محدودة من البيانات وحد أدنى من الحوسبة. ونجد أن النماذج الحالية للتعلم الذاتي ثلاثي الأبعاد تفشل في تحقيق الأداء المطلوب عند تقييم جودة التمثيل من خلال التحقيق الخطي. ونفترض أن السبب في ذلك يكمن في ما نسميه "الحل السريع الهندسي"، والذي يؤدي إلى انهيار التمثيلات إلى ميزات مكانية منخفضة المستوى. ويعتبر هذا التحدي خاصًا بالثلاثي الأبعاد، وينشأ من الطبيعة النادرة للبيانات النقطية. ونعالج هذا التحدي من خلال استراتيجيتين رئيسيتين: إخفاء المعلومات المكانية وتعزيز الاعتماد على الميزات المدخلة، مما يُنتج في النهاية ما يُسمى بـ "سوناتا" المكونة من 140 ألف نقطة، من خلال عملية التدريب الذاتي. وتشتهر "سوناتا" ببساطتها ووضوحها، لكن تمثيلاتها المُتعلّمة قوية وموثوقة: إذ تُظهر التصورات بدون تدريب مسبق تجميعًا معنويًا، بالإضافة إلى قدرة قوية على الاستدلال المكاني من خلال علاقات الجيران الأقرب. وتُظهر "سوناتا" كفاءة استثنائية من حيث عدد المعلمات والبيانات، حيث تضاعف دقة التحقيق الخطي ثلاث مرات (من 21.8% إلى 72.5%) على مجموعة بيانات ScanNet، وتحسّن الأداء تقريبًا بمقدار الضعف باستخدام فقط 1% من البيانات مقارنة بالأساليب السابقة. كما أن التخصيص الكامل يُسهم في تقدم أداء النموذج إلى مستوى الحد الأقصى (SOTA) في مهام الاستشعار ثلاثية الأبعاد داخلية وخارجية.