منذ 8 أشهر

الملخص

أظهرت النماذج اللغوية الكبيرة قدرات شاملة مثيرة للإعجاب في مجموعة واسعة من المهام المفتوحة، وقد وسعت نطاق فائدتها لتشمل المحادثات متعددة الوسائط. ومع ذلك، تواجه الطرق الحالية تحديات في التعامل بفعالية مع فهم الصور والفيديوهات، خاصة عند توفر رموز بصرية محدودة. في هذا العمل، نقدم Chat-UniVi، وهو نموذج موحد للرؤية واللغة قادر على فهم وإجراء محادثات تتعلق بالصور والفيديوهات من خلال تمثيل بصري موحد. بشكل خاص، نستخدم مجموعة من الرموز البصرية الديناميكية لتمثيل الصور والفيديوهات بشكل موحد. يتيح هذا الإطار التمثيلي للنموذج استخدام عدد محدود من الرموز البصرية بكفاءة لالتقاط التفاصيل المكانية اللازمة للصور والعلاقة الزمنية الشاملة المطلوبة للفيديوهات في آن واحد. علاوة على ذلك، نستفيد من تمثيل متعدد المقاييس، مما يتيح للنموذج إدراك المفاهيم الدلالية العليا والتفاصيل البصرية الدنيا على حد سواء. ومن الجدير بالذكر أن Chat-UniVi يتم تدريبه على مجموعة بيانات مختلطة تحتوي على صور وفيديوهات، مما يسمح بتطبيق مباشر للمهام التي تتضمن كلا الوسيلتين دون الحاجة إلى أي تعديلات. أظهرت النتائج التجريبية الواسعة أن Chat-UniVi يتفوق باستمرار حتى على الطرق الموجودة المصممة حصريًا لأحد الوسيلتين (الصور أو الفيديوهات). يمكن الوصول إلى الكود عبر الرابط: https://github.com/PKU-YuanGroup/Chat-UniVi.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Peng Jin Ryuichi Takanobu Wancai Zhang Xiaochun Cao Li Yuan

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Peng Jin Ryuichi Takanobu Wancai Zhang Xiaochun Cao Li Yuan

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Peng Jin Ryuichi Takanobu Wancai Zhang Xiaochun Cao Li Yuan

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

شات-يونيفي: التمثيل البصري الموحد يمنح النماذج اللغوية الكبيرة فهم الصور والفيديوهات

Peng Jin Ryuichi Takanobu Wancai Zhang Xiaochun Cao Li Yuan

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

شات-يونيفي: التمثيل البصري الموحد يمنح النماذج اللغوية الكبيرة فهم الصور والفيديوهات

Peng Jin Ryuichi Takanobu Wancai Zhang Xiaochun Cao Li Yuan

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

شات-يونيفي: التمثيل البصري الموحد يمنح النماذج اللغوية الكبيرة فهم الصور والفيديوهات

Peng Jin Ryuichi Takanobu Wancai Zhang Xiaochun Cao Li Yuan

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters