HyperAIHyperAI
منذ 2 أشهر

فيديو-LLaVA: تعلم التمثيل البصري الموحد من خلال المطابقة قبل الإسقاط

Bin Lin; Yang Ye; Bin Zhu; Jiaxi Cui; Munan Ning; Peng Jin; Li Yuan
فيديو-LLaVA: تعلم التمثيل البصري الموحد من خلال المطابقة قبل الإسقاط
الملخص

لقد أImproved نموذج الرؤية-اللغة الكبير (LVLM) من أداء مجموعة متنوعة من المهام الثانوية في فهم اللغة البصرية. ومع ذلك، فإن معظم النهج الحالية تقوم بتشفير الصور والفيديوهات في فضاءات ميزات منفصلة، والتي يتم تغذيتها بعد ذلك كمدخلات إلى النماذج اللغوية الكبيرة. ولكن بسبب عدم وجود تجزئة موحدة للصور والفيديوهات، أي سوء التوافق قبل الإسقاط، يصبح من الصعب على نموذج اللغة الكبير (LLM) أن يتعلم التفاعلات متعددة الوسائط من عدة طبقات إسقاط ضعيفة. في هذا العمل، قمنا بتوحيد تمثيل الرؤية في فضاء الميزات اللغوية لتعزيز النموذج اللغوي الأساسي نحو LVLM موحد. ونتيجة لذلك، أنشأنا أساسًا بسيطًا ولكنه صلب لنماذج LVLM، وهو Video-LLaVA، الذي يتعلم من مجموعة بيانات مختلطة تتكون من صور وفيديوهات، مما يعزز كل منها الآخر بشكل متبادل. حقق Video-LLaVA أداءً أفضل بكثير على نطاق واسع في 9 مقاييس صورية عبر 5 مجموعات بيانات للأسئلة والإجابات الصورية و4 أدوات مقاييس صورية. بالإضافة إلى ذلك، تفوق Video-LLaVA على Video-ChatGPT بنسبة 5.8٪ و9.9٪ و18.6٪ و10.1٪ على MSRVTT وMSVD وTGIF وActivityNet على التوالي. ومن الجدير بالذكر أن التجارب الواسعة قد أثبتت أن Video-LLaVA يستفيد بشكل متبادل من الصور والفيديوهات ضمن تمثيل بصري موحد، مما يجعله يتفوق على النماذج المصممة خصيصًا للصور أو الفيديوهات. نهدف من خلال هذا العمل إلى تقديم رؤى متواضعة حول المدخلات متعددة الوسائط لنماذج LLM.رمز البرمجيات: \href{https://github.com/PKU-YuanGroup/Video-LLaVA}