نقطة-M2AE: مُشفرات ذاتية متعددة المقياس للتدريب التراتبي على السحابات النقطية

أظهرت الشبكات العصبية التلقائية المقنعة (MAE) إمكانات كبيرة في التدريب الذاتي غير المشرف للتحويلات اللغوية والصور ثنائية الأبعاد. ومع ذلك، لا يزال السؤال مفتوحًا حول كيفية استغلال الترميز التلقائي المقنع لتعلم تمثيلات ثلاثية الأبعاد للسحابات النقطية غير المنتظمة. في هذا البحث، نقترح Point-M2AE، وهو إطار قوي للتدريب متعدد المقاييس MAE لتعلم السحابات النقطية ثلاثية الأبعاد بطريقة ذاتية ومتدرجة.على عكس المحول القياسي المستخدم في MAE، نقوم بتعديل الكودر والديكودر إلى هياكلهراميدية لنمذجة الهندسة الفضائية تدريجيًا وتقاطع دلالات الشكل ثلاثي الأبعاد بدقة عالية ودقيقة. بالنسبة للكودر الذي يقوم بتقليل عدد الرموز النقطية مرحلة بمرحلة، نصمم استراتيجية تكميم متعددة المقاييس لإنشاء مناطق مرئية متسقة عبر مختلف المقاييس، ونعتمد آلية انتباه ذاتي فضائي محلي أثناء التعديل الدقيق للتركيز على الأنماط المجاورة.من خلال انتشار الرموز متعدد المقاييس، يقوم الديكودر الخفيف الوزن بتضخيم الرموز النقطية تدريجيًا باستخدام اتصالات القفز التكميلية من الكودر، مما يعزز إعادة الإنشاء من وجهة نظر عالمية إلى محلية. أثبتت التجارب الواسعة أن Point-M2AE يحقق أداءً رائدًا في تعلم التمثيل الثلاثي الأبعاد. بعد التدريب الأولي مع كودر ثابت، يصل Point-M2AE إلى دقة 92.9% لـ SVM الخطية على ModelNet40، مما يتفوق على بعض الأساليب التي تم تدريبها بشكل كامل.عن طريق التعديل الدقيق على المهام اللاحقة، يحقق Point-M2AE دقة 86.43% على ScanObjectNN (+3.36% مقارنة بالطريقة الثانية الأفضل)، ويقدم فوائد كبيرة في تصنيف الحالات القليلة والتقسيم الجزئي واكتشاف الأجسام ثلاثية الأبعاد بفضل نظام التدريب الأولي المتدرج. يمكن الوصول إلى الكود عبر الرابط: https://github.com/ZrrSkywalker/Point-M2AE.