HyperAIHyperAI
منذ 2 أشهر

نقطةCLIP: فهم السحابة النقطية بواسطة CLIP

Zhang, Renrui ; Guo, Ziyu ; Zhang, Wei ; Li, Kunchang ; Miao, Xupeng ; Cui, Bin ; Qiao, Yu ; Gao, Peng ; Li, Hongsheng
نقطةCLIP: فهم السحابة النقطية بواسطة CLIP
الملخص

في الآونة الأخيرة، أظهر التعلم بدون أمثلة (Zero-Shot) والتعلم بقليل من الأمثلة (Few-Shot) عبر التدريب المسبق المقارن للرؤية واللغة (Contrastive Vision-Language Pre-training - CLIP) أداءً ملهمًا في مجال التعرف على الصور ثنائية الأبعاد، حيث يتم تعلم مطابقة الصور مع النصوص المرتبطة بها في إعدادات مفردات مفتوحة. ومع ذلك، لا يزال البحث قليلًا حول إمكانية تعميم CLIP، الذي تم تدريبه بواسطة أزواج صورة-نص واسعة النطاق ثنائية الأبعاد، إلى التعرف على الأشكال ثلاثية الأبعاد. في هذا البحث، نحدد أن مثل هذه الإعدادات ممكنة من خلال اقتراح PointCLIP، وهو نموذج يقوم بالتم.Align بين السحابة النقطية المشفرة بواسطة CLIP والنصوص الفئوية ثلاثية الأبعاد. بشكل خاص، نقوم بتشفير السحابة النقطية عن طريق إسقاطها إلى خرائط عمق متعددة الوجهات دون الحاجة إلى الرسم (Rendering)، ونجمع التوقعات بدون أمثلة حسب وجهات النظر لتحقيق نقل المعرفة من البعدين إلى الثلاث أبعاد. بالإضافة إلى ذلك، صممنا محولًا بين وجهات النظر (Inter-view Adapter) لاستخراج الخصائص العالمية بشكل أفضل ودمج المعرفة القليلة من الأمثلة التي تم تعلمها من البيانات ثلاثية الأبعاد بشكل تكيفي في CLIP الذي تم تدريبه في البعدين. عن طريق ضبط هذا المحول الخفيف الوزن فقط في إعدادات القليل من الأمثلة، يمكن تحسين أداء PointCLIP بشكل كبير. علاوة على ذلك، لاحظنا الخاصية التكاملية بين PointCLIP والشبكات الرقابية الكلاسيكية ثلاثية الأبعاد. من خلال الجمع البسيط لهذه النماذج، يعزز PointCLIP أداء النموذج الأساسي وحتى يتخطى أفضل النماذج الحالية. لذلك، يعد PointCLIP بديلًا واعدًا لفهم السحب النقطية ثلاثية الأبعاد بكفاءة عبر CLIP وبتكلفة موارد ومنهج بيانات منخفضتين. نجري تجارب شاملة على مجموعة بيانات ModelNet10 وModelNet40 الشائعة الاستخدام وعلى مجموعة بيانات ScanObjectNN الصعبة للتأكيد على فعالية PointCLIP. تم إطلاق الكود المصدر على الرابط: https://github.com/ZrrSkywalker/PointCLIP.请注意,"Align" 在阿拉伯语中通常翻译为 "محاذاة" 或 "تطابق"،根据上下文我选择了 "التم.Align" 来保留术语的专业性。如果需要进一步优化,可以将其改为 "المحاذاة". 另外,“Inter-view Adapter” 翻译为 “محول بين وجهات النظر”,这是一个较为直接的翻译,如果该术语在阿拉伯语科技文献中有特定的通用译法,请告知以便进行调整。

نقطةCLIP: فهم السحابة النقطية بواسطة CLIP | أحدث الأوراق البحثية | HyperAI