منذ 6 أشهر

الملخص

الفيديو يُعد وسيلة إعلامية متزايدة الأهمية وغنية بالمعلومات، لكنه يشكل تحديات كبيرة أمام النماذج اللغوية. يتكوّن الفيديو النموذجي من سلسلة من المقاطع الأقصر، أو ما يُعرف بـ"اللقطات"، التي تُشكّل معًا سردًا متماسكًا. تشبه كل لقطة كلمة في جملة، حيث يجب معالجة تدفقات متعددة من المعلومات (مثل البيانات البصرية والصوتية) بشكل متزامن. ويتطلب فهم الفيديو بالكامل ليس فقط فهم المعلومات البصرية والصوتية لكل لقطة، بل أيضًا قدرة النموذج على ربط الأفكار بين اللقطات المختلفة لتكوين قصة شاملة وأكبر. وعلى الرغم من التقدم الكبير في هذا المجال، فإن الأعمال الحالية غالبًا ما تتجاهل المعلومات الدلالية الدقيقة التي تتعلق بكل لقطة على حدة. في هذا المشروع، نقترح مجموعة من النماذج الكبيرة الفعّالة للغة والرؤية (LLVMs) لتعزيز ملخصات الفيديو والتعليق عليه، ونسمّيها "شوتلوك هولمز". من خلال الاستفادة من استراتيجيات تدريب مُسبق أفضل وجمع بيانات أكثر فعالية، نوسع قدرات النماذج الصغيرة الحالية من فهم صورة واحدة إلى القدرة على فهم تسلسل من الإطارات. وبشكل خاص، نُظهر أن نموذج "شوتلوك هولمز" يحقق أداءً أفضل من النتائج الرائدة في مجال توليد التعليق والملخص للفيديوهات (Shot2Story)، وباستخدام نماذج أصغر وأكثر كفاءة حسابية بشكل ملحوظ.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Richard Luo Austin Peng Adithya Vasudev Rishabh Jain

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Richard Luo Austin Peng Adithya Vasudev Rishabh Jain

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Richard Luo Austin Peng Adithya Vasudev Rishabh Jain

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

شوتلوك هولمز: عائلة من نماذج اللغة الكبيرة الصغيرة الفعالة ذات الحجم الصغير للرؤية الفيديو لوصف الفيديو وتلخيصه

Richard Luo Austin Peng Adithya Vasudev Rishabh Jain

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

شوتلوك هولمز: عائلة من نماذج اللغة الكبيرة الصغيرة الفعالة ذات الحجم الصغير للرؤية الفيديو لوصف الفيديو وتلخيصه

Richard Luo Austin Peng Adithya Vasudev Rishabh Jain

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

شوتلوك هولمز: عائلة من نماذج اللغة الكبيرة الصغيرة الفعالة ذات الحجم الصغير للرؤية الفيديو لوصف الفيديو وتلخيصه

Richard Luo Austin Peng Adithya Vasudev Rishabh Jain

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters