نحو تمثيلات ثلاثية الأبعاد مدمجة عبر تحسين خصائص النقاط باستخدام مكودرات التشفير التلقائي المقنعة

يُلعب تعلم التمثيل ثلاثي الأبعاد دورًا حاسمًا في طرق التدريب المسبق القائمة على مُشفرات التلقائي المقنّعة (MAE) للسحابة النقطية، بما في ذلك الطرق القائمة على النموذج الواحد والنموذج المتقاطع. بوجه خاص، رغم أن الطرق القائمة على النموذج المتقاطع تتعلم تمثيلات ثلاثية أبعاد قوية بمساعدة معرفة نماذج أخرى، فإنها غالبًا ما تعاني من أعباء حسابية ثقيلة وتعتمد بشكل كبير على كميات ضخمة من أزواج البيانات المتقاطعة التي غالبًا ما تكون غير متاحة، مما يعيق تطبيقاتها العملية. بدلاً من ذلك، يتم تفضيل الطرق القائمة على النموذج الواحد التي تستند فقط إلى السحابة النقطية في التطبيقات الحقيقية بسبب بساطتها وكفاءتها. ومع ذلك، فإن هذه الطرق تتعرض بسهولة لتمثيلات ثلاثية الأبعاد محدودة عند استخدام إدخال عشوائي عالمي للماسكات. لتعلم تمثيلات ثلاثية الأبعاد مكثفة، نقترح طريقة بسيطة ولكن فعالة جدًا تُسمى مشفرات التلقائي المقنّعة معززة خصائص النقاط (Point-FEMAE)، والتي تتكون أساسًا من فرع عالمي وفرع محلي لالتقاط الخصائص الدلالية الكامنة. تحديدًا، لتعلم خصائص أكثر كثافة، تم تقديم مُشفِّر Transformer مشترك المعاملات لاستخراج خصائص النقاط من الباثات غير المقنّعة عالميًا ومحليًا التي يتم الحصول عليها بواسطة استراتيجيات الماسكات العشوائية العالمية والكتل المحلية، يتبعها فاصل خاص لإعادة الإنشاء. وفي الوقت نفسه، لتعزيز الخصائص بشكل أكبر في الفرع المحلي، نقترح وحدة تعزيز محلية باستخدام التفاف الباث المحلي لاكتشاف السياق المحلي الدقيق بمقياس أكبر. يحسن طرحنا الكفاءة في التدريب المسبق بشكل كبير مقارنة بالبدائل المتقاطعة، وتؤكد التجارب التطبيقية الواسعة الفعالية الرائدة في مجالها، خاصةً بتخطيه الأساس الخاص بنا (Point-MAE) بنسبة 5.16٪ و5.00٪ و5.04٪ في ثلاثة نسخ مختلفة من ScanObjectNN على التوالي. يمكن الوصول إلى الكود عبر الرابط https://github.com/zyh16143998882/AAAI24-PointFEMAE.