VideoLLaMA 2: تقدم في نمذجة الفضاء والزمن وفهم الصوت في نماذج اللغة المرئية

في هذا البحث، نقدم VideoLLaMA 2، وهي مجموعة من نماذج اللغة الكبيرة المصممة للفيديو (Video-LLMs) بهدف تعزيز النمذجة المكانية-الزمانية وفهم الصوت في المهام المتعلقة بالفيديو والصوت. مع البناء على سلفها، يدمج VideoLLaMA 2 متصلاً خاصاً بالنمذجة المكانية-الزمانية (Spatial-Temporal Convolution - STC)، والذي يتمكن بشكل فعال من التقاط الديناميكيات المكانية والزمانية المعقدة لبيانات الفيديو. بالإضافة إلى ذلك، نقوم بدمج فرع الصوت في النموذج عبر التدريب المشترك، مما يثري قدرات الفهم المتعددة الأوضاع للنموذج من خلال دمج مؤشرات الصوت بسلاسة. تظهر التقييمات الشاملة على مهام الإجابة عن أسئلة الفيديو ذات الخيارات المتعددة (MC-VQA)، والإجابة عن أسئلة الفيديو المفتوحة (OE-VQA)، ووصف الفيديو (VC) أن VideoLLaMA 2 تحقق باستمرار نتائج تنافسية بين النماذج ذات المصدر المفتوح وتقترب حتى من بعض النماذج الخاصة في عدة مقاييس. علاوة على ذلك، تظهر VideoLLaMA 2 تحسينات معقولة في مقاييس الإجابة عن الأسئلة الصوتية فقط والإجابات الصوتية المرئية المفتوحة (AQA & OE-AVQA) مقارنة بالنماذج الحالية. هذه التطورات تؤكد الأداء المتفوق لـ VideoLLaMA 2 في الفهم المتعدد الأوضاع، مما يضع معيارًا جديدًا لأنظمة تحليل الفيديو الذكية. جميع النماذج متاحة للجمهور لتسهيل المزيد من الأبحاث.