PCP-MAE: تعلم التنبؤ بالمراكز لمكودات التلقائية المقنعة للنقاط

تم استكشاف المُشفر التلقائي المقنّع (Masked autoencoder) على نطاق واسع في تعلم الذاتي المراقب للسحابة النقطية (point cloud self-supervised learning)، حيث يتم تقسيم السحابة النقطية عادةً إلى أجزاء مرئية وأجزاء مقنّعة. تتضمن هذه الطرق عادةً مشفرًا (encoder) يقبل الأجزاء المرئية (المُطابَقة) والمراكز المقابلة للأجزاء (الموضع) كمدخلات، بينما يقبل المُفكِّر (decoder) مخرجات المشفر ومراكز الأجزاء المقنّعة (الموضع) لإعادة بناء كل نقطة في الأجزاء المقنّعة. بعد ذلك، يتم استخدام المشفرات التي تم تدريبها مسبقًا لأداء المهام اللاحقة. في هذا البحث، نقدم نتيجة تجريبية محفزة تظهر أن عند إدخال مراكز الأجزاء المقنّعة مباشرة إلى المُفكِّر دون أي معلومات من المشفر، لا يزال بإمكانه إعادة البناء بشكل جيد. بعبارة أخرى، تعتبر مراكز الأجزاء مهمة ولا يعتمد هدف إعادة البناء بالضرورة على تمثيلات المشفر، مما يمنع المشفر من تعلم التمثيلات الدلالية. بناءً على هذه الملاحظة الرئيسية، نقترح طريقة بسيطة ومعتبرة فعالة، وهي تعلم التنبؤ بمراكز السحابة النقطية المقنّعة (PCP-MAE)، والتي توجه النموذج لتعلم كيفية التنبؤ بالمراكز الهامة واستخدام هذه المراكز المتوقعة بدلاً من المراكز المعطاة مباشرة. بشكل خاص، نقترح وحدة التنبؤ بالمراكز (PCM) التي تشترك في معاملاتها مع المشفر الأصلي مع وجود انتباه متكرس إضافي للتنبؤ بالمراكز. طريقة عملنا ذات كفاءة عالية في التدريب الأولي مقارنة بالبدائل الأخرى وتحقق تحسينًا كبيرًا على Point-MAE، خاصة أنها تتفوق عليه بنسبة 5.50% في OBJ-BG، 6.03% في OBJ-ONLY، و5.17% في PB-T50-RS لتصنيف الأجسام ثلاثية الأبعاد على مجموعة بيانات ScanObjectNN. يمكن الوصول إلى الكود عبر الرابط:https://github.com/aHapBean/PCP-MAE.