HyperAIHyperAI

Command Palette

Search for a command to run...

فيلا: محاذاة الفيديو واللغة الفعالة لاستجابة الأسئلة حول الفيديو

Xijun Wang Junbang Liang Chun-Kai Wang Kenan Deng Yu Lou Ming Lin Shan Yang

الملخص

في هذه الدراسة، نقترح شبكة تسمى ViLA (التوافق الفعّال بين الفيديو واللغة). تُعالج نموذج ViLA كلاً من استخلاص الإطارات الفعّال وتوافق الوسائط المتقاطعة بشكل موحّد. في شبكة ViLA، قمنا بتصميم مُحفّز إطارات قابل للتعلم يُوجّهه النص (Frame-Prompter) جديد، إلى جانب وحدة جديدة للاستخلاص المتقاطع (QFormer-Distiller). أظهرت النماذج الكبيرة المُدرّبة مسبقًا للصورة واللغة نتائج واعدة في مسائل مثل الإجابة على الأسئلة المرئية (VQA). ومع ذلك، لا يزال التحدي الرئيسي يتمثل في كيفية استخلاص إطارات الفيديو بشكل فعّال وفعّال عند تكييف النماذج الكبيرة المُدرّبة مسبقًا للصورة واللغة مع التوافق بين الفيديو واللغة. مقارنةً بالعمل السابق، يُظهر نموذج ViLA قدرته على اختيار الإطارات الأساسية التي تحتوي على محتوى حاسم، مما يُحسّن دقة التوافق بين الفيديو واللغة مع تقليل زمن الاستجابة (بزيادة بنسبة 3.3% على NExT-QA Temporal مع تسريع بنسبة 3.0 مرة). بشكل عام، يتفوّق نموذج ViLA على أفضل الطرق الحالية في معايير الإجابة على الأسئلة المرئية: بزيادة بنسبة 4.6% على STAR Interaction، و2.2% على متوسط STAR مع تسريع بنسبة 3.0 مرة، ويتفوّق نموذجنا باستخدام إطاراتين على نموذج SeViLA باستخدام أربع إطارات على مجموعة بيانات VLEP مع تسريع بنسبة 4.2 مرة. سيتم إتاحة الكود على الرابط: https://github.com/xijun-cs/ViLA.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
فيلا: محاذاة الفيديو واللغة الفعالة لاستجابة الأسئلة حول الفيديو | مستندات | HyperAI