الملخص

أظهرت النماذج المدربة مسبقًا على نطاق واسع أداءً واعدًا في العالم المفتوح لكل من مهام الرؤية واللغة. ومع ذلك، لا يزال قدرتها على نقل المهارات إلى السحب النقطية ثلاثية الأبعاد محدودًا ومحصورًا في مهمة التصنيف فقط. في هذا البحث، نقوم أولًا بدمج CLIP و GPT لتشكيل متعلم عالمي ثلاثي الأبعاد موحد، والذي سُمي بـ PointCLIP V2، حيث يتم استغلال إمكاناتهما بشكل كامل للتصنيف الثلاثي الأبعاد بدون تعلم سابق (zero-shot)، والتقطيع، والكشف. لتحقيق تناسق أفضل بين البيانات ثلاثية الأبعاد والمعرفة اللغوية المدربة مسبقًا، يحتوي PointCLIP V2 على تصاميم رئيسية اثنتين. بالنسبة للنهاية البصرية، نحفز CLIP عبر وحدة إسقاط الشكل لإنشاء خرائط عمق أكثر واقعية، مما يضيق الفجوة بين السحب النقطية المسقوفة والصور الطبيعية. أما بالنسبة للنهاية النصية، فنحفز نموذج GPT لإنتاج نصوص خاصة بالبعد الثالث كمدخل لمُشفر CLIP النصي. دون أي تدريب في مجالات البعد الثالث، تتفوق طريقتنا بشكل كبير على PointCLIP بنسبة دقة +42.90٪، +40.44٪، و+28.75٪ على ثلاثة مجموعات بيانات للتصنيف الثلاثي الأبعاد بدون تعلم سابق (zero-shot). بالإضافة إلى ذلك، يمكن توسيع V2 بسهولة لتشمل التصنيف الثلاثي الأبعاد بنماذج قليلة (few-shot) والتقطيع الجزئي الثلاثي الأبعاد بدون تعلم سابق (zero-shot) وكشف الأجسام ثلاثية الأبعاد، مما يثبت قدرتنا على التعميم في التعلم العالمي الثلاثي الأبعاد الموحد.

ملف PDF المصدر عرض الكود

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

نقطةCLIP V2: تحفيز CLIP و GPT للتعلم القوي في العالم المفتوح ثلاثي الأبعاد

Xiangyang Zhu∗1, Renrui Zhang†‡2,3, Bowei He1, Ziyu Guo2,3, Ziyao Zeng5, Zipeng Qin2, Shanghang Zhang4, Peng Gao3

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

نقطةCLIP V2: تحفيز CLIP و GPT للتعلم القوي في العالم المفتوح ثلاثي الأبعاد

Xiangyang Zhu∗1, Renrui Zhang†‡2,3, Bowei He1, Ziyu Guo2,3, Ziyao Zeng5, Zipeng Qin2, Shanghang Zhang4, Peng Gao3

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

نقطةCLIP V2: تحفيز CLIP و GPT للتعلم القوي في العالم المفتوح ثلاثي الأبعاد

Xiangyang Zhu∗1, Renrui Zhang†‡2,3, Bowei He1, Ziyu Guo2,3, Ziyao Zeng5, Zipeng Qin2, Shanghang Zhang4, Peng Gao3

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters