HyperAIHyperAI

Command Palette

Search for a command to run...

شوتلوك هولمز: عائلة من نماذج اللغة الكبيرة الصغيرة الفعالة ذات الحجم الصغير للرؤية الفيديو لوصف الفيديو وتلخيصه

Richard Luo Austin Peng Adithya Vasudev Rishabh Jain

الملخص

الفيديو يُعد وسيلة إعلامية متزايدة الأهمية وغنية بالمعلومات، لكنه يشكل تحديات كبيرة أمام النماذج اللغوية. يتكوّن الفيديو النموذجي من سلسلة من المقاطع الأقصر، أو ما يُعرف بـ"اللقطات"، التي تُشكّل معًا سردًا متماسكًا. تشبه كل لقطة كلمة في جملة، حيث يجب معالجة تدفقات متعددة من المعلومات (مثل البيانات البصرية والصوتية) بشكل متزامن. ويتطلب فهم الفيديو بالكامل ليس فقط فهم المعلومات البصرية والصوتية لكل لقطة، بل أيضًا قدرة النموذج على ربط الأفكار بين اللقطات المختلفة لتكوين قصة شاملة وأكبر. وعلى الرغم من التقدم الكبير في هذا المجال، فإن الأعمال الحالية غالبًا ما تتجاهل المعلومات الدلالية الدقيقة التي تتعلق بكل لقطة على حدة. في هذا المشروع، نقترح مجموعة من النماذج الكبيرة الفعّالة للغة والرؤية (LLVMs) لتعزيز ملخصات الفيديو والتعليق عليه، ونسمّيها "شوتلوك هولمز". من خلال الاستفادة من استراتيجيات تدريب مُسبق أفضل وجمع بيانات أكثر فعالية، نوسع قدرات النماذج الصغيرة الحالية من فهم صورة واحدة إلى القدرة على فهم تسلسل من الإطارات. وبشكل خاص، نُظهر أن نموذج "شوتلوك هولمز" يحقق أداءً أفضل من النتائج الرائدة في مجال توليد التعليق والملخص للفيديوهات (Shot2Story)، وباستخدام نماذج أصغر وأكثر كفاءة حسابية بشكل ملحوظ.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp