منذ 2 أشهر

PLLaVA: توسيع LLaVA بدون معلمات من الصور إلى الفيديو للكتابة الكثيفة للفيديو

Lin Xu, Yilin Zhao, Daquan Zhou, Zhijie Lin, See Kiong Ng, Jiashi Feng

الملخص

التدريب المسبق للرؤية واللغة قد رفع بشكل كبير من الأداء في مجموعة واسعة من تطبيقات الصور واللغة. ومع ذلك، يتطلب التدريب المسبق للمهام المتعلقة بالفيديو موارد حسابية وبيانات استثنائية كبيرة، مما يعيق تقدم نماذج الفيديو-اللغة. تتناول هذه الورقة بحثية طريقة مباشرة وكفؤة للغاية وخفيفة على الموارد لتكيف نموذج تم تدريبه مسبقًا على الصور واللغة لفهم الفيديو الكثيف. كشفت تجاربنا الأولية أن تعديل النماذج التي تم تدريبها مسبقًا على الصور واللغة مباشرة باستخدام عدة إطارات كمدخلات على مجموعات بيانات الفيديو يؤدي إلى اشباع الأداء أو حتى انخفاضه. أظهرت تحقيقاتنا الإضافية أن هذا يُعزى في الغالب إلى التحيز في الخصائص البصرية ذات القيم العالية (high-norm visual features). مستوحاة من هذا الاكتشاف، نقترح استراتيجية جمع بسيطة ولكن فعالة لتخفيف توزيع الخصائص على البعد الزمني وبالتالي الحد من الآثار السائدة للخصائص المتطرفة. يُطلق على النموذج الجديد اسم Pooling LLaVA، أو PLLaVA اختصارًا. حقق PLLaVA أداءً جديدًا يتفوق على أفضل ما سبق في مجموعات البيانات الحديثة للمعايير لكل من مهام أسئلة وإجابات الفيديو وتسمية الفيديو. وبشكل لافت للنظر، حقق PLLaVA درجة 3.48 من 5 في المتوسط لخمس أبعاد تم تقييمها في معيار Video ChatGPT الشائع حديثًا، مما يتجاوز النتائج السابقة لأفضل ما سبق من GPT4V (IG-VLM) بنسبة 9%. وفي أحدث معيار متعدد الخيارات MVBench، حقق PLLaVA دقة بنسبة 58.1% في المتوسط عبر 20 مهمة فرعية، وهي نسبة أعلى بنسبة 14.5% من GPT4V (IG-VLM). يمكن الحصول على الكود من الرابط التالي: https://github.com/magic-research/PLLaVA.