HyperAIHyperAI

Command Palette

Search for a command to run...

فيديو-LLaVA: تعلم التمثيل البصري الموحد من خلال المطابقة قبل الإسقاط

Bin Lin; Yang Ye; Bin Zhu; Jiaxi Cui; Munan Ning; Peng Jin; Li Yuan

الملخص

لقد أImproved نموذج الرؤية-اللغة الكبير (LVLM) من أداء مجموعة متنوعة من المهام الثانوية في فهم اللغة البصرية. ومع ذلك، فإن معظم النهج الحالية تقوم بتشفير الصور والفيديوهات في فضاءات ميزات منفصلة، والتي يتم تغذيتها بعد ذلك كمدخلات إلى النماذج اللغوية الكبيرة. ولكن بسبب عدم وجود تجزئة موحدة للصور والفيديوهات، أي سوء التوافق قبل الإسقاط، يصبح من الصعب على نموذج اللغة الكبير (LLM) أن يتعلم التفاعلات متعددة الوسائط من عدة طبقات إسقاط ضعيفة. في هذا العمل، قمنا بتوحيد تمثيل الرؤية في فضاء الميزات اللغوية لتعزيز النموذج اللغوي الأساسي نحو LVLM موحد. ونتيجة لذلك، أنشأنا أساسًا بسيطًا ولكنه صلب لنماذج LVLM، وهو Video-LLaVA، الذي يتعلم من مجموعة بيانات مختلطة تتكون من صور وفيديوهات، مما يعزز كل منها الآخر بشكل متبادل. حقق Video-LLaVA أداءً أفضل بكثير على نطاق واسع في 9 مقاييس صورية عبر 5 مجموعات بيانات للأسئلة والإجابات الصورية و4 أدوات مقاييس صورية. بالإضافة إلى ذلك، تفوق Video-LLaVA على Video-ChatGPT بنسبة 5.8٪ و9.9٪ و18.6٪ و10.1٪ على MSRVTT وMSVD وTGIF وActivityNet على التوالي. ومن الجدير بالذكر أن التجارب الواسعة قد أثبتت أن Video-LLaVA يستفيد بشكل متبادل من الصور والفيديوهات ضمن تمثيل بصري موحد، مما يجعله يتفوق على النماذج المصممة خصيصًا للصور أو الفيديوهات. نهدف من خلال هذا العمل إلى تقديم رؤى متواضعة حول المدخلات متعددة الوسائط لنماذج LLM.رمز البرمجيات: \href{https://github.com/PKU-YuanGroup/Video-LLaVA}


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
فيديو-LLaVA: تعلم التمثيل البصري الموحد من خلال المطابقة قبل الإسقاط | مستندات | HyperAI