HyperAIHyperAI
منذ 8 أيام

شوتلوك هولمز: عائلة من نماذج اللغة الكبيرة الصغيرة الفعالة ذات الحجم الصغير للرؤية الفيديو لوصف الفيديو وتلخيصه

Richard Luo, Austin Peng, Adithya Vasudev, Rishabh Jain
شوتلوك هولمز: عائلة من نماذج اللغة الكبيرة الصغيرة الفعالة ذات الحجم الصغير للرؤية الفيديو لوصف الفيديو وتلخيصه
الملخص

الفيديو يُعد وسيلة إعلامية متزايدة الأهمية وغنية بالمعلومات، لكنه يشكل تحديات كبيرة أمام النماذج اللغوية. يتكوّن الفيديو النموذجي من سلسلة من المقاطع الأقصر، أو ما يُعرف بـ"اللقطات"، التي تُشكّل معًا سردًا متماسكًا. تشبه كل لقطة كلمة في جملة، حيث يجب معالجة تدفقات متعددة من المعلومات (مثل البيانات البصرية والصوتية) بشكل متزامن. ويتطلب فهم الفيديو بالكامل ليس فقط فهم المعلومات البصرية والصوتية لكل لقطة، بل أيضًا قدرة النموذج على ربط الأفكار بين اللقطات المختلفة لتكوين قصة شاملة وأكبر. وعلى الرغم من التقدم الكبير في هذا المجال، فإن الأعمال الحالية غالبًا ما تتجاهل المعلومات الدلالية الدقيقة التي تتعلق بكل لقطة على حدة. في هذا المشروع، نقترح مجموعة من النماذج الكبيرة الفعّالة للغة والرؤية (LLVMs) لتعزيز ملخصات الفيديو والتعليق عليه، ونسمّيها "شوتلوك هولمز". من خلال الاستفادة من استراتيجيات تدريب مُسبق أفضل وجمع بيانات أكثر فعالية، نوسع قدرات النماذج الصغيرة الحالية من فهم صورة واحدة إلى القدرة على فهم تسلسل من الإطارات. وبشكل خاص، نُظهر أن نموذج "شوتلوك هولمز" يحقق أداءً أفضل من النتائج الرائدة في مجال توليد التعليق والملخص للفيديوهات (Shot2Story)، وباستخدام نماذج أصغر وأكثر كفاءة حسابية بشكل ملحوظ.

شوتلوك هولمز: عائلة من نماذج اللغة الكبيرة الصغيرة الفعالة ذات الحجم الصغير للرؤية الفيديو لوصف الفيديو وتلخيصه | أحدث الأوراق البحثية | HyperAI