Vista-LLaMA: تقليل التحيّز في نماذج اللغة المرئية من خلال المسافة المتساوية إلى الرموز البصرية

أظهرت التطورات الحديثة في النماذج الكبيرة للغة والفيديو نتائج واعدة في فهم الفيديو. تعتمد الطرق الحالية بشكل مباشر على تحويل الفيديو إلى رموز لغوية، ثم استخدام النماذج الكبيرة للغة في المهام متعددة الوسائط. ومع ذلك، يؤدي هذا الأسلوب غالبًا إلى إنتاج محتوى غير ذي صلة، المعروف شائعًا باسم "الوهم" (hallucination)، خاصة مع زيادة طول النص وتراجع تأثير الفيديو. ولحل هذه المشكلة، نقترح إطار عمل جديد يُدعى Vista-LLaMA، الذي يحافظ على المسافة الثابتة بين جميع الرموز البصرية وأي رموز لغوية، بغض النظر عن طول النص المُنتَج. يُلغى Vista-LLaMA استخدام الترميز المكاني النسبي عند حساب معاملات الانتباه بين الرموز البصرية والرموز النصية، مع الحفاظ على الترميز المكاني للنصوص والرموز النصية. وهذا يعزز تأثير الرموز البصرية على إنشاء النص، خاصة عندما يكون الفرق المكاني بين الرموز البصرية والنصي كبيرًا. ويقلل الميكانيزم الانتباه المقترح بشكل كبير من احتمالية إنتاج نص غير ذي صلة بالمحتوى المرئي. علاوةً على ذلك، نقدّم مُحَوِّلًا بصريًا تسلسليًا يحول الإطار الحالي للفيديو إلى رموز في فضاء اللغة باستخدام مساعدة الإطار السابق، مما يسمح بالتقاط العلاقة الزمنية داخل الفيديو، ويتيح أيضًا استخدام عدد أقل من الرموز البصرية لتمثيل الفيديو بالكامل. تتفوّق طريقة عملنا بشكل كبير على العديد من الطرق السابقة (مثل Video-ChatGPT و MovieChat) في أربع معايير صعبة لأسئلة الفيديو المفتوحة النموذج، حيث بلغت دقة النموذج 60.7 في معيار NExT-QA بدون تدريب مسبق (zero-shot)، و60.5 في معيار MSRVTT-QA بدون تدريب مسبق، مُحقِّقةً أداءً جديدًا على مستوى الحالة الحالية (state-of-the-art). يمكن الوصول إلى هذا المشروع عبر الرابط: https://jinxxian.github.io/Vista-LLaMA.