شوتلوك هولمز: عائلة من نماذج اللغة الكبيرة الصغيرة الفعالة ذات الحجم الصغير للرؤية الفيديو لوصف الفيديو وتلخيصه

الفيديو يُعد وسيلة إعلامية متزايدة الأهمية وغنية بالمعلومات، لكنه يشكل تحديات كبيرة أمام النماذج اللغوية. يتكوّن الفيديو النموذجي من سلسلة من المقاطع الأقصر، أو ما يُعرف بـ"اللقطات"، التي تُشكّل معًا سردًا متماسكًا. تشبه كل لقطة كلمة في جملة، حيث يجب معالجة تدفقات متعددة من المعلومات (مثل البيانات البصرية والصوتية) بشكل متزامن. ويتطلب فهم الفيديو بالكامل ليس فقط فهم المعلومات البصرية والصوتية لكل لقطة، بل أيضًا قدرة النموذج على ربط الأفكار بين اللقطات المختلفة لتكوين قصة شاملة وأكبر. وعلى الرغم من التقدم الكبير في هذا المجال، فإن الأعمال الحالية غالبًا ما تتجاهل المعلومات الدلالية الدقيقة التي تتعلق بكل لقطة على حدة. في هذا المشروع، نقترح مجموعة من النماذج الكبيرة الفعّالة للغة والرؤية (LLVMs) لتعزيز ملخصات الفيديو والتعليق عليه، ونسمّيها "شوتلوك هولمز". من خلال الاستفادة من استراتيجيات تدريب مُسبق أفضل وجمع بيانات أكثر فعالية، نوسع قدرات النماذج الصغيرة الحالية من فهم صورة واحدة إلى القدرة على فهم تسلسل من الإطارات. وبشكل خاص، نُظهر أن نموذج "شوتلوك هولمز" يحقق أداءً أفضل من النتائج الرائدة في مجال توليد التعليق والملخص للفيديوهات (Shot2Story)، وباستخدام نماذج أصغر وأكثر كفاءة حسابية بشكل ملحوظ.