HyperAIHyperAI

Command Palette

Search for a command to run...

العينة التكيفية الذاتية لاستجابة الفيديو الفعالة على نماذج الصورة-النص

Wei Han Hui Chen Min-Yen Kan Soujanya Poria

الملخص

إجابة السؤال بناءً على الفيديو هي مهمة أساسية في مجال فهم الفيديو. وعلى الرغم من أن النماذج الحالية للرؤية واللغة (VLMs) المزودة بمحولات الفيديو (Video Transformers) قد ساهمت في نمذجة الزمن وحققت نتائج متفوقة، إلا أنها تتطلب قوة حسابية هائلة، مما يجعلها باهظة التكلفة للغاية وصعبة التنفيذ في السياقات التطبيقية الزمنية الحقيقية. تُعدّ الحلول البديلة الاقتصادية هي عينة جزء صغير من الإطارات لتمثيل المحتوى الرئيسي للفيديو، ثم تخصيص نموذج الصورة-النص على هذه الإطارات المُستخلصة. ومع ذلك، فإن النماذج الحديثة لفهم الفيديو عادةً ما تستخلص عشوائيًا مجموعة من الإطارات أو المقاطع، دون أخذ الارتباطات الداخلية بين محتوياتها البصرية أو صلتها بالسؤال بعين الاعتبار. نحن نرى أن هذا النوع من الاستخلاص العشوائي قد يُفقد الإطارات الأساسية التي يمكن استخلاص الإجابة الصحيحة منها، وتصبح الحالة أسوأ كلما زادت شحنة الاستخلاص، وهي الظاهرة التي تحدث غالبًا مع زيادة طول الفيديو. ولتخفيف هذه المشكلة، نقترح استراتيجيتين لاستخلاص الإطارات، وهما: الإطارات الأكثر تخصصًا في المجال (MDF) والإطارات الأكثر إيحاءً (MIF)، بهدف الحفاظ على أقصى قدر ممكن من الإطارات التي يُحتمل أن تكون حاسمة بالنسبة للسؤال المعطى. تقلل MDF بشكل تلقائي من خطر إغفال الإطارات الأساسية بطريقة تُعرف بـ "التجريب التدريجي" (bootstrap)، في حين تقوم MIF بالبحث النشط عن الإطارات الحاسمة المخصصة لكل زوج من الفيديو والسؤال باستخدام نماذج مساعدة. وقد أظهرت النتائج التجريبية على ثلاث مجموعات بيانات عامة من ثلاث نماذج متقدمة للرؤية واللغة (CLIP، GIT، وAll-in-one) أن الاستراتيجيات المقترحة يمكن أن تُحسّن أداء نماذج الصورة-النص المُدرّبة مسبقًا. وتم إتاحة الشفرة المصدرية الخاصة بالطريقة المُقترحة في هذه الورقة للجمهور عبر الرابط التالي: https://github.com/declare-lab/sas-vqa.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp