نقطةCLIP V2: تحفيز CLIP و GPT للتعلم القوي في العالم المفتوح ثلاثي الأبعاد

أظهرت النماذج المدربة مسبقًا على نطاق واسع أداءً واعدًا في العالم المفتوح لكل من مهام الرؤية واللغة. ومع ذلك، لا يزال قدرتها على نقل المهارات إلى السحب النقطية ثلاثية الأبعاد محدودًا ومحصورًا في مهمة التصنيف فقط. في هذا البحث، نقوم أولًا بدمج CLIP و GPT لتشكيل متعلم عالمي ثلاثي الأبعاد موحد، والذي سُمي بـ PointCLIP V2، حيث يتم استغلال إمكاناتهما بشكل كامل للتصنيف الثلاثي الأبعاد بدون تعلم سابق (zero-shot)، والتقطيع، والكشف. لتحقيق تناسق أفضل بين البيانات ثلاثية الأبعاد والمعرفة اللغوية المدربة مسبقًا، يحتوي PointCLIP V2 على تصاميم رئيسية اثنتين. بالنسبة للنهاية البصرية، نحفز CLIP عبر وحدة إسقاط الشكل لإنشاء خرائط عمق أكثر واقعية، مما يضيق الفجوة بين السحب النقطية المسقوفة والصور الطبيعية. أما بالنسبة للنهاية النصية، فنحفز نموذج GPT لإنتاج نصوص خاصة بالبعد الثالث كمدخل لمُشفر CLIP النصي. دون أي تدريب في مجالات البعد الثالث، تتفوق طريقتنا بشكل كبير على PointCLIP بنسبة دقة +42.90٪، +40.44٪، و+28.75٪ على ثلاثة مجموعات بيانات للتصنيف الثلاثي الأبعاد بدون تعلم سابق (zero-shot). بالإضافة إلى ذلك، يمكن توسيع V2 بسهولة لتشمل التصنيف الثلاثي الأبعاد بنماذج قليلة (few-shot) والتقطيع الجزئي الثلاثي الأبعاد بدون تعلم سابق (zero-shot) وكشف الأجسام ثلاثية الأبعاد، مما يثبت قدرتنا على التعميم في التعلم العالمي الثلاثي الأبعاد الموحد.