HyperAIHyperAI

Command Palette

Search for a command to run...

نقطة LLM: تمكين نماذج اللغة الكبيرة من فهم السحب النقطية

Runsen Xu Xiaolong Wang Tai Wang† Yilun Chen Jiangmiao Pang† Dahua Lin

الملخص

التطورات غير المسبوقة في نماذج اللغات الكبيرة (LLMs) قد أظهرت تأثيرًا عميقًا على معالجة اللغة الطبيعية، لكنها لم تغطي بعد مجال الفهم ثلاثي الأبعاد بشكل كامل. يقدم هذا البحث PointLLM، وهو جهد أولي لسد هذه الثغرة، مما يمكّن نماذج اللغات الكبيرة من فهم السحب النقطية ويفتح طريقًا جديدًا خارج بيانات الصور ثنائية الأبعاد. يتمكن PointLLM من فهم سحب النقاط للأجسام الملونة مع تعليمات بشرية ويولد ردود فعل مناسبة سياقيًا، مما يوضح قدرته على فهم السحب النقطية والمنطق العام. وبشكل محدد، يستخدم نقطة سحابة مشفرة مع نموذج لغوي كبير قوي لدمج المعلومات الهندسية والمظهرية واللغوية بكفاءة. جمعنا مجموعة بيانات جديدة تتكون من 660 ألف زوج بسيط و70 ألف زوج معقد من تعليمات السحب النقطية والنصوص لتمكين استراتيجية تدريب ذات مرحلتين: مواءمة الفضاءات الكامنة ثم ضبط التعليمات للنموذج الموحد. لتقييم القدرات الإدراكية والتعميم لـ PointLLM بدقة، أنشأنا مقاييسين: تصنيف الأجسام ثلاثية الأبعاد التوليدي ووصف الأجسام ثلاثية الأبعاد، وتقييمهما عبر ثلاثة طرق مختلفة، بما في ذلك التقييم البشري وتقييم GPT-4/ChatGPT والمقاييس التقليدية. كشفت النتائج التجريبية عن أداء متفوق لـ PointLLM مقارنة بالأساسيات الموجودة ثنائية وثلاثية الأبعاد، حيث حقق إنجازًا ملحوظًا في مهمات وصف الأجسام التي تم تقييمها بشريًا، حيث تفوق على المشغلين البشريين في أكثر من 50% من العينات. يمكن الوصول إلى الرموز ومجموعات البيانات والمقاييس عبر الرابط https://github.com/OpenRobotLab/PointLLM .


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp