HyperAIHyperAI
منذ 2 أشهر

LLaMA-VID: الصورة تساوي قيمتين في النماذج اللغوية الكبيرة

Yanwei Li; Chengyao Wang; Jiaya Jia
LLaMA-VID: الصورة تساوي قيمتين في النماذج اللغوية الكبيرة
الملخص

في هذا العمل، نقدم طريقة جديدة لمعالجة تحدي إنشاء الرموز في نماذج اللغة والرؤية (VLMs) لفهم الفيديو والصور، تُسمى LLaMA-VID. رغم كفاءة النماذج الحالية في مهام مثل وصف الصور وإجابة الأسئلة البصرية، فإنها تواجه أعباء حسابية عند معالجة مقاطع الفيديو الطويلة بسبب زيادة عدد الرموز البصرية. يعالج LLaMA-VID هذه المشكلة من خلال تمثيل كل إطار برمزين مختلفين، وهما رمز السياق ورمز المحتوى. يقوم رمز السياق بتشفير سياق الصورة العام بناءً على مدخلات المستخدم، بينما يحوي رمز المحتوى العناصر البصرية في كل إطار. هذه الاستراتيجية الثنائية للرموز تقلل بشكل كبير من الأعباء المرتبطة بالفيديوهات الطويلة مع الحفاظ على المعلومات الحرجة. عمومًا، يمكن لـ LLaMA-VID تمكين الإطارات الموجودة من دعم مقاطع الفيديو التي تستمر لمدة ساعة وزيادة حدودها العليا بإضافة رمز سياق إضافي. وقد ثبت أنها تتفوق على الطرق السابقة في معظم المقاييس المتعلقة بالفيديو أو الصور. الكود متاح على الرابط: https://github.com/dvlab-research/LLaMA-VID.