HyperAIHyperAI

Command Palette

Search for a command to run...

شات-يونيفي: التمثيل البصري الموحد يمنح النماذج اللغوية الكبيرة فهم الصور والفيديوهات

Peng Jin Ryuichi Takanobu Wancai Zhang Xiaochun Cao Li Yuan

الملخص

أظهرت النماذج اللغوية الكبيرة قدرات شاملة مثيرة للإعجاب في مجموعة واسعة من المهام المفتوحة، وقد وسعت نطاق فائدتها لتشمل المحادثات متعددة الوسائط. ومع ذلك، تواجه الطرق الحالية تحديات في التعامل بفعالية مع فهم الصور والفيديوهات، خاصة عند توفر رموز بصرية محدودة. في هذا العمل، نقدم Chat-UniVi، وهو نموذج موحد للرؤية واللغة قادر على فهم وإجراء محادثات تتعلق بالصور والفيديوهات من خلال تمثيل بصري موحد. بشكل خاص، نستخدم مجموعة من الرموز البصرية الديناميكية لتمثيل الصور والفيديوهات بشكل موحد. يتيح هذا الإطار التمثيلي للنموذج استخدام عدد محدود من الرموز البصرية بكفاءة لالتقاط التفاصيل المكانية اللازمة للصور والعلاقة الزمنية الشاملة المطلوبة للفيديوهات في آن واحد. علاوة على ذلك، نستفيد من تمثيل متعدد المقاييس، مما يتيح للنموذج إدراك المفاهيم الدلالية العليا والتفاصيل البصرية الدنيا على حد سواء. ومن الجدير بالذكر أن Chat-UniVi يتم تدريبه على مجموعة بيانات مختلطة تحتوي على صور وفيديوهات، مما يسمح بتطبيق مباشر للمهام التي تتضمن كلا الوسيلتين دون الحاجة إلى أي تعديلات. أظهرت النتائج التجريبية الواسعة أن Chat-UniVi يتفوق باستمرار حتى على الطرق الموجودة المصممة حصريًا لأحد الوسيلتين (الصور أو الفيديوهات). يمكن الوصول إلى الكود عبر الرابط: https://github.com/PKU-YuanGroup/Chat-UniVi.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
شات-يونيفي: التمثيل البصري الموحد يمنح النماذج اللغوية الكبيرة فهم الصور والفيديوهات | مستندات | HyperAI