شبكة الصور يمكن أن تكون بقيمة الفيديو: الإجابة على أسئلة الفيديو بدون تدريب باستخدام نموذج لغوي بصري

تحت تأثير قدرات الاستدلال المعقدة للنماذج اللغوية الكبيرة الحديثة (LLMs)، تم وضع مجموعة متنوعة من الاستراتيجيات لربط وسائط الفيديو. ومن بين هذه الاستراتيجيات، تبرز نماذج اللغة المرئية (VideoLMs)، التي تقوم بتدريب واجهة قابلة للتعلم باستخدام بيانات الفيديو لربط المُشفِّرات البصرية المتقدمة مع النماذج اللغوية الكبيرة. مؤخرًا، ظهرت استراتيجية بديلة تعتمد على استخدام النماذج الأساسية الجاهزة، مثل نماذج اللغة المرئية والنماذج اللغوية الكبيرة، عبر عدة مراحل لربط الوسائط. في هذه الدراسة، نقدم استراتيجية بسيطة ومعتدلة حيث يتم استخدام نموذج واحد فقط من نماذج اللغة المرئية (VLM). نقطة انطلاقنا هي الرؤية الواضحة بأن الفيديو يتكون من سلسلة صور أو إطارات متشابكة بمعلومات زمنية. جوهر فهم الفيديو يكمن في إدارة الجوانب الزمنية بشكل ماهر بالإضافة إلى التفاصيل المكانية لكل إطار. في البداية، نحول الفيديو إلى صورة مركبة واحدة عن طريق ترتيب الإطارات المتعددة في تصميم شبكة. الصورة الناتجة تُسمى شبكة الصور. هذا التنسيق، بينما يحافظ على مظهر الصورة الواحدة، يحتفظ بكفاءة بالمعلومات الزمنية داخل بنية الشبكة. وبالتالي، فإن طريقة شبكة الصور تمكن من التطبيق المباشر لنموذج واحد عالي الأداء من نماذج اللغة المرئية دون الحاجة إلى أي تدريب على بيانات الفيديو. تكشف تحليلنا التجريبي الواسع عبر عشرة مقاييس لتقييم أسئلة الفيديو بدون تعليم مسبق، بما في ذلك خمس مقاييس ذات أسئلة مفتوحة وخمس مقاييس ذات اختيارات متعددة، أن النموذج المقترح لشبكة الصور في نموذج اللغة المرئية (IG-VLM) يتفوق على الأساليب الموجودة في تسعة من أصل عشرة مقاييس.