Point-BERT: التدريب المسبق لتحويلات السحابة النقطية ثلاثية الأبعاد باستخدام نموذج النقطة المخفية

نقدم Point-BERT، نموذجًا جديدًا لتعلم Transformers يعمم مفهوم BERT إلى السحابة النقطية ثلاثية الأبعاد. مستوحى من BERT، قمنا بتصميم مهمة نمذجة النقاط المقنّعة (Masked Point Modeling - MPM) لتدريب Transformers الخاصة بالسحابة النقطية بشكل مسبق. تحديدًا، نقسم أولاً سحابة النقاط إلى عدة بقع نقطية محلية، وتم تصميم Tokenizer للسحابة النقطية باستخدام مشفّر تبايني متقطع (discrete Variational AutoEncoder - dVAE) لإنتاج رموز نقاط متقطعة تحتوي على معلومات محلية ذات معنى. ثم، نقنّع عشوائيًا بعض البقع من السحب النقطية المدخلة وندخلها إلى Transformers الأساسية. هدف التدريب المسبق هو استعادة الرموز الأصلية للنقاط في المواقع المقنّعة تحت إشراف رموز النقاط التي تم الحصول عليها من Tokenizer. تظهر التجارب الواسعة أن الاستراتيجية المقترحة للتدريب المسبق بنمط BERT تحسّن بشكل كبير أداء Transformers القياسية للسحابة النقطية. عندما يتم تجهيزها باستراتيجيتنا للتدريب المسبق، نوضح أن البنية المحضة لـ Transformer تحقق دقة 93.8% على ModelNet40 ودقة 83.1% على الإعداد الأكثر صعوبة لـ ScanObjectNN، مما يتفوق على نماذج السحابة النقطية المصممة بعناية والتي تتضمن تصاميم يدوية أقل بكثير. كما نوضح أيضًا أن التمثيلات التي تم تعلمها بواسطة Point-BERT تنقُل بشكل جيد إلى مهمات ومجالات جديدة، حيث تحقق نماذجنا تقدمًا كبيرًا في مهمة تصنيف السحب النقطية القليلة الطلقات (few-shot point cloud classification). يمكن الوصول إلى الكود والنماذج المدربة مسبقًا عبر الرابط: https://github.com/lulutang0608/Point-BERT