HyperAIHyperAI

Command Palette

Search for a command to run...

نقطة-ربط & نقطة-النموذج اللغوي الكبير: محاذاة السحابة النقطية مع التعددية الوسيطية لفهم ثلاثي الأبعاد، والتوليد، واتباع التعليمات

الملخص

نقدم نموذج Point-Bind، وهو نموذج ثلاثي الأبعاد متعدد الوسائط يُحاذا بين السحب النقطية والصور ثنائية الأبعاد، واللغة، والصوت، والفيديو. بقيادة ImageBind، نقوم ببناء فضاء تمثيلي مشترك بين البعد الثالث ومتعدد الوسائط، مما يمكّن العديد من التطبيقات الواعدة مثل توليد أي شيء إلى ثلاثي الأبعاد (any-to-3D)، وحسابات التمثيل الثلاثي الأبعاد (3D embedding arithmetic)، وفهم العالم المفتوح الثلاثي الأبعاد (3D open-world understanding). بالإضافة إلى ذلك، نقدم Point-LLM، وهو أول نموذج لغوي كبير ثلاثي الأبعاد (3D LLM) يتبع تعليمات متعددة الوسائط في البعد الثالث. من خلال تقنيات التعديل الدقيق ذات الكفاءة العالية في المعلمات، يتم حقن معاني Point-Bind في النماذج اللغوية الكبيرة المدربة مسبقًا مثل LLaMA، والتي لا تتطلب بيانات تعليمات ثلاثية الأبعاد ولكنها تظهر قدرة استثنائية على الإجابة عن أسئلة ثلاثية الأبعاد ومتعددة الوسائط. نأمل أن يلقي عملنا الضوء على المجتمع لتوسيع نطاق استخدام السحب النقطية الثلاثية الأبعاد في تطبيقات متعددة الوسائط. يمكن الوصول إلى الرمز البرمجي عبر الرابط:https://github.com/ZiyuGuo99/Point-Bind_Point-LLM.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp