نقطة LLM: تمكين نماذج اللغة الكبيرة من فهم السحب النقطية

التطورات غير المسبوقة في نماذج اللغات الكبيرة (LLMs) قد أظهرت تأثيرًا عميقًا على معالجة اللغة الطبيعية، لكنها لم تغطي بعد مجال الفهم ثلاثي الأبعاد بشكل كامل. يقدم هذا البحث PointLLM، وهو جهد أولي لسد هذه الثغرة، مما يمكّن نماذج اللغات الكبيرة من فهم السحب النقطية ويفتح طريقًا جديدًا خارج بيانات الصور ثنائية الأبعاد. يتمكن PointLLM من فهم سحب النقاط للأجسام الملونة مع تعليمات بشرية ويولد ردود فعل مناسبة سياقيًا، مما يوضح قدرته على فهم السحب النقطية والمنطق العام. وبشكل محدد، يستخدم نقطة سحابة مشفرة مع نموذج لغوي كبير قوي لدمج المعلومات الهندسية والمظهرية واللغوية بكفاءة. جمعنا مجموعة بيانات جديدة تتكون من 660 ألف زوج بسيط و70 ألف زوج معقد من تعليمات السحب النقطية والنصوص لتمكين استراتيجية تدريب ذات مرحلتين: مواءمة الفضاءات الكامنة ثم ضبط التعليمات للنموذج الموحد. لتقييم القدرات الإدراكية والتعميم لـ PointLLM بدقة، أنشأنا مقاييسين: تصنيف الأجسام ثلاثية الأبعاد التوليدي ووصف الأجسام ثلاثية الأبعاد، وتقييمهما عبر ثلاثة طرق مختلفة، بما في ذلك التقييم البشري وتقييم GPT-4/ChatGPT والمقاييس التقليدية. كشفت النتائج التجريبية عن أداء متفوق لـ PointLLM مقارنة بالأساسيات الموجودة ثنائية وثلاثية الأبعاد، حيث حقق إنجازًا ملحوظًا في مهمات وصف الأجسام التي تم تقييمها بشريًا، حيث تفوق على المشغلين البشريين في أكثر من 50% من العينات. يمكن الوصول إلى الرموز ومجموعات البيانات والمقاييس عبر الرابط https://github.com/OpenRobotLab/PointLLM .