CLIP2Point: نقل CLIP إلى تصنيف السحابة النقطية باستخدام التدريب المسبق على الصور والعمق

التدريب المسبق عبر الرؤية ثلاثية الأبعاد واللغة لا يزال قيد التطوير بسبب نقص البيانات التدريبية. تسعى الأعمال الحديثة إلى نقل نماذج التدريب المسبق للرؤية واللغة إلى مجال الرؤية ثلاثية الأبعاد. تقوم PointCLIP بتحويل بيانات السحابة النقطية إلى خرائط عمق متعددة الزوايا، وتستخدم CLIP لتصنيف الأشكال. ومع ذلك، فإن أداءها محدود بسبب الفجوة بين المجالات بين الخرائط العمق المرسومة والصور، وكذلك تنوع توزيعات العمق. لحل هذه المشكلة، نقترح CLIP2Point، وهو طريقة تدريب مسبق للصورة والعمق من خلال التعلم التضادي لنقل CLIP إلى المجال الثلاثي الأبعاد وتكيفه مع تصنيف السحابة النقطية. نقدم إعدادًا جديدًا للرسم بالعمق يشكل تأثيرًا بصريًا أفضل، ثم نقوم برسم 52,460 زوجًا من الصور وخرائط العمق من ShapeNet للتدريب المسبق. يتكون نظام التدريب المسبق لـ CLIP2Point من تعلم عبر الوسائط المتعددة لتعزيز خصائص العمق في التقاط الخصائص البصرية والنقدية التعبيرية، وتعلم داخل الوسيلة لتقوية ثبات تجميع العمق. بالإضافة إلى ذلك، نقترح وحدة تعديل مسارين (DPA) جديدة، وهي بنية مسارين مع تعديلات مبسطة للتعلم القليل الإشراف. تسمح بنية المسارين باستخدام CLIP وCLIP2Point معًا، ويمكن للتعديل المبسط أن يتناسب جيدًا مع مهام التعلم القليل الإشراف دون الحاجة إلى البحث اللاحق. تظهر النتائج التجريبية أن CLIP2Point فعال في نقل معرفة CLIP إلى الرؤية ثلاثية الأبعاد. يتفوق CLIP2Point على PointCLIP والعديد من الشبكات ثلاثية الأبعاد ذات الإشراف الذاتي الأخرى، ويحقق أفضل النتائج في تصنيف عدم الإشراف والتعلم القليل الإشراف.