منذ 8 أشهر

الملخص

في الآونة الأخيرة، أظهر التعلم بدون أمثلة (Zero-Shot) والتعلم بقليل من الأمثلة (Few-Shot) عبر التدريب المسبق المقارن للرؤية واللغة (Contrastive Vision-Language Pre-training - CLIP) أداءً ملهمًا في مجال التعرف على الصور ثنائية الأبعاد، حيث يتم تعلم مطابقة الصور مع النصوص المرتبطة بها في إعدادات مفردات مفتوحة. ومع ذلك، لا يزال البحث قليلًا حول إمكانية تعميم CLIP، الذي تم تدريبه بواسطة أزواج صورة-نص واسعة النطاق ثنائية الأبعاد، إلى التعرف على الأشكال ثلاثية الأبعاد. في هذا البحث، نحدد أن مثل هذه الإعدادات ممكنة من خلال اقتراح PointCLIP، وهو نموذج يقوم بالتم.Align بين السحابة النقطية المشفرة بواسطة CLIP والنصوص الفئوية ثلاثية الأبعاد. بشكل خاص، نقوم بتشفير السحابة النقطية عن طريق إسقاطها إلى خرائط عمق متعددة الوجهات دون الحاجة إلى الرسم (Rendering)، ونجمع التوقعات بدون أمثلة حسب وجهات النظر لتحقيق نقل المعرفة من البعدين إلى الثلاث أبعاد. بالإضافة إلى ذلك، صممنا محولًا بين وجهات النظر (Inter-view Adapter) لاستخراج الخصائص العالمية بشكل أفضل ودمج المعرفة القليلة من الأمثلة التي تم تعلمها من البيانات ثلاثية الأبعاد بشكل تكيفي في CLIP الذي تم تدريبه في البعدين. عن طريق ضبط هذا المحول الخفيف الوزن فقط في إعدادات القليل من الأمثلة، يمكن تحسين أداء PointCLIP بشكل كبير. علاوة على ذلك، لاحظنا الخاصية التكاملية بين PointCLIP والشبكات الرقابية الكلاسيكية ثلاثية الأبعاد. من خلال الجمع البسيط لهذه النماذج، يعزز PointCLIP أداء النموذج الأساسي وحتى يتخطى أفضل النماذج الحالية. لذلك، يعد PointCLIP بديلًا واعدًا لفهم السحب النقطية ثلاثية الأبعاد بكفاءة عبر CLIP وبتكلفة موارد ومنهج بيانات منخفضتين. نجري تجارب شاملة على مجموعة بيانات ModelNet10 وModelNet40 الشائعة الاستخدام وعلى مجموعة بيانات ScanObjectNN الصعبة للتأكيد على فعالية PointCLIP. تم إطلاق الكود المصدر على الرابط: https://github.com/ZrrSkywalker/PointCLIP.请注意，"Align" 在阿拉伯语中通常翻译为 "محاذاة" 或 "تطابق"،根据上下文我选择了 "التم.Align" 来保留术语的专业性。如果需要进一步优化，可以将其改为 "المحاذاة". 另外，“Inter-view Adapter” 翻译为 “محول بين وجهات النظر”，这是一个较为直接的翻译，如果该术语在阿拉伯语科技文献中有特定的通用译法，请告知以便进行调整。

ملف PDF المصدر عرض الكود

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Renrui Zhang Ziyu Guo Wei Zhang Kunchang Li Xupeng Miao Bin Cui Yu Qiao Peng Gao Hongsheng Li

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Renrui Zhang Ziyu Guo Wei Zhang Kunchang Li Xupeng Miao Bin Cui Yu Qiao Peng Gao Hongsheng Li

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Renrui Zhang Ziyu Guo Wei Zhang Kunchang Li Xupeng Miao Bin Cui Yu Qiao Peng Gao Hongsheng Li

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

نقطةCLIP: فهم السحابة النقطية بواسطة CLIP

Renrui Zhang Ziyu Guo Wei Zhang Kunchang Li Xupeng Miao Bin Cui Yu Qiao Peng Gao Hongsheng Li

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

نقطةCLIP: فهم السحابة النقطية بواسطة CLIP

Renrui Zhang Ziyu Guo Wei Zhang Kunchang Li Xupeng Miao Bin Cui Yu Qiao Peng Gao Hongsheng Li

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

نقطةCLIP: فهم السحابة النقطية بواسطة CLIP

Renrui Zhang Ziyu Guo Wei Zhang Kunchang Li Xupeng Miao Bin Cui Yu Qiao Peng Gao Hongsheng Li

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters