HyperAIHyperAI
منذ 2 أشهر

نقطة-ربط & نقطة-النموذج اللغوي الكبير: محاذاة السحابة النقطية مع التعددية الوسيطية لفهم ثلاثي الأبعاد، والتوليد، واتباع التعليمات

Guo, Ziyu ; Zhang, Renrui ; Zhu, Xiangyang ; Tang, Yiwen ; Ma, Xianzheng ; Han, Jiaming ; Chen, Kexin ; Gao, Peng ; Li, Xianzhi ; Li, Hongsheng ; Heng, Pheng-Ann
نقطة-ربط & نقطة-النموذج اللغوي الكبير: محاذاة السحابة النقطية مع التعددية الوسيطية لفهم ثلاثي الأبعاد، والتوليد، واتباع التعليمات
الملخص

نقدم نموذج Point-Bind، وهو نموذج ثلاثي الأبعاد متعدد الوسائط يُحاذا بين السحب النقطية والصور ثنائية الأبعاد، واللغة، والصوت، والفيديو. بقيادة ImageBind، نقوم ببناء فضاء تمثيلي مشترك بين البعد الثالث ومتعدد الوسائط، مما يمكّن العديد من التطبيقات الواعدة مثل توليد أي شيء إلى ثلاثي الأبعاد (any-to-3D)، وحسابات التمثيل الثلاثي الأبعاد (3D embedding arithmetic)، وفهم العالم المفتوح الثلاثي الأبعاد (3D open-world understanding). بالإضافة إلى ذلك، نقدم Point-LLM، وهو أول نموذج لغوي كبير ثلاثي الأبعاد (3D LLM) يتبع تعليمات متعددة الوسائط في البعد الثالث. من خلال تقنيات التعديل الدقيق ذات الكفاءة العالية في المعلمات، يتم حقن معاني Point-Bind في النماذج اللغوية الكبيرة المدربة مسبقًا مثل LLaMA، والتي لا تتطلب بيانات تعليمات ثلاثية الأبعاد ولكنها تظهر قدرة استثنائية على الإجابة عن أسئلة ثلاثية الأبعاد ومتعددة الوسائط. نأمل أن يلقي عملنا الضوء على المجتمع لتوسيع نطاق استخدام السحب النقطية الثلاثية الأبعاد في تطبيقات متعددة الوسائط. يمكن الوصول إلى الرمز البرمجي عبر الرابط:https://github.com/ZiyuGuo99/Point-Bind_Point-LLM.

نقطة-ربط & نقطة-النموذج اللغوي الكبير: محاذاة السحابة النقطية مع التعددية الوسيطية لفهم ثلاثي الأبعاد، والتوليد، واتباع التعليمات | أحدث الأوراق البحثية | HyperAI