التعلم المُكوَّن المُتكيف مع العدد للتصنيف الدلالي للسحابة النقطية ثلاثية الأبعاد

التصنيف الدلالي للسحاب النقطي ثلاثي الأبعاد هو أحد المهام الأساسية لفهم المشهد ثلاثي الأبعاد، وقد تم استخدامه على نطاق واسع في تطبيقات العوالم الافتراضية (الميتافيرس). تتعلم العديد من الطرق الحديثة للتصنيف الدلالي ثلاثي الأبعاد نموذجًا واحدًا (أوزان التصنيف) لكل فئة دلالية، ثم تقوم بتصنيف النقاط ثلاثية الأبعاد وفقًا لأقرب نموذج لها. ومع ذلك، فإن تعلم نموذج واحد فقط لكل فئة يحد من قدرة النموذج على وصف الأنماط عالية التباين داخل الفئة. بدلًا من تعلم نموذج واحد لكل فئة، نقترح في هذه الورقة استخدام عدد متكيف من النماذج لوصف ديناميكي للأنماط المختلفة للنقاط ضمن فئة دلالية واحدة. وبفضل القوة الكبيرة لنموذج التحويل البصري (Vision Transformer)، قمنا بتصميم نموذج يُسمى التعلم المتكيف بعدد النماذج (Number-Adaptive Prototype Learning - NAPL) للتصنيف الدلالي للسحاب النقطية. ولتدريب نموذج NAPL، اقترحنا استراتيجية تدريب بسيطة ولكن فعالة تُعرف بـ "إسقاط النموذج" (prototype dropout)، والتي تمكن النموذج من إنتاج نماذج متكيفة لكل فئة بشكل تلقائي. أظهرت النتائج التجريبية على مجموعة بيانات SemanticKITTI تحسنًا بنسبة 2.3% في متوسط دقة التداخل (mIoU) مقارنةً بالنموذج الأساسي القائم على منهجية التصنيف النقطي.