تnahme-صورة: التدريب التوليدي من 3D إلى 2D لنموذج السحابة النقطية

مع الاتجاه السائد في نمذجة صور الأقنعة بقيادة MAE، أظهر التدريب التوليدي إمكانية ملحوظة لتعزيز أداء النماذج الأساسية في الرؤية ثنائية الأبعاد (2D). ومع ذلك، في الرؤية ثلاثية الأبعاد (3D)، أدت الاعتماد الزائد على الهياكل الخلفية المستندة إلى Transformer والطبيعة غير المرتبة للسحابات النقطية إلى تقييد التطوير المزيد للتدريب التوليدي. في هذا البحث، نقترح طريقة جديدة للتدريب التوليدي من 3D إلى 2D قابلة للتكيّف مع أي نموذج سحابة نقطية. نقترح إنشاء صور وجهات نظر من مواقع مختلفة موجهة عبر آلية الانتباه المتقاطع كخطة تدريب أولي. إنشاء صور وجهات النظر يوفر رقابة أكثر دقة من نظيرتها في السحابة النقطية، مما يساعد الهياكل الخلفية ثلاثية الأبعاد على فهم أفضل وأدق للهيكل الهندسي والعلاقات المجسمة للسحابة النقطية. وقد أثبتت النتائج التجريبية تفوق الطريقة المقترحة لدينا للتدريب التوليدي من 3D إلى 2D على طرق التدريب الأولي السابقة. كما أن طريقتنا فعالة في تعزيز أداء الأساليب الموجهة نحو العمارة، حيث حققت أفضل الأداء الحالي عند التعديل الدقيق على مهام تصنيف ScanObjectNN وتمييز ShapeNetPart. يمكن الوصول إلى الكود في https://github.com/wangzy22/TAP.