HyperAIHyperAI

Command Palette

Search for a command to run...

PLLaVA: توسيع LLaVA بدون معلمات من الصور إلى الفيديو للكتابة الكثيفة للفيديو

Lin Xu Yilin Zhao Daquan Zhou Zhijie Lin See Kiong Ng Jiashi Feng

الملخص

التدريب المسبق للرؤية واللغة قد رفع بشكل كبير من الأداء في مجموعة واسعة من تطبيقات الصور واللغة. ومع ذلك، يتطلب التدريب المسبق للمهام المتعلقة بالفيديو موارد حسابية وبيانات استثنائية كبيرة، مما يعيق تقدم نماذج الفيديو-اللغة. تتناول هذه الورقة بحثية طريقة مباشرة وكفؤة للغاية وخفيفة على الموارد لتكيف نموذج تم تدريبه مسبقًا على الصور واللغة لفهم الفيديو الكثيف. كشفت تجاربنا الأولية أن تعديل النماذج التي تم تدريبها مسبقًا على الصور واللغة مباشرة باستخدام عدة إطارات كمدخلات على مجموعات بيانات الفيديو يؤدي إلى اشباع الأداء أو حتى انخفاضه. أظهرت تحقيقاتنا الإضافية أن هذا يُعزى في الغالب إلى التحيز في الخصائص البصرية ذات القيم العالية (high-norm visual features). مستوحاة من هذا الاكتشاف، نقترح استراتيجية جمع بسيطة ولكن فعالة لتخفيف توزيع الخصائص على البعد الزمني وبالتالي الحد من الآثار السائدة للخصائص المتطرفة. يُطلق على النموذج الجديد اسم Pooling LLaVA، أو PLLaVA اختصارًا. حقق PLLaVA أداءً جديدًا يتفوق على أفضل ما سبق في مجموعات البيانات الحديثة للمعايير لكل من مهام أسئلة وإجابات الفيديو وتسمية الفيديو. وبشكل لافت للنظر، حقق PLLaVA درجة 3.48 من 5 في المتوسط ​​لخمس أبعاد تم تقييمها في معيار Video ChatGPT الشائع حديثًا، مما يتجاوز النتائج السابقة لأفضل ما سبق من GPT4V (IG-VLM) بنسبة 9%. وفي أحدث معيار متعدد الخيارات MVBench، حقق PLLaVA دقة بنسبة 58.1% في المتوسط ​​عبر 20 مهمة فرعية، وهي نسبة أعلى بنسبة 14.5% من GPT4V (IG-VLM). يمكن الحصول على الكود من الرابط التالي: https://github.com/magic-research/PLLaVA.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp