HyperAIHyperAI
منذ 7 أيام

فيلا: محاذاة الفيديو واللغة الفعالة لاستجابة الأسئلة حول الفيديو

Xijun Wang, Junbang Liang, Chun-Kai Wang, Kenan Deng, Yu Lou, Ming Lin, Shan Yang
فيلا: محاذاة الفيديو واللغة الفعالة لاستجابة الأسئلة حول الفيديو
الملخص

في هذه الدراسة، نقترح شبكة تسمى ViLA (التوافق الفعّال بين الفيديو واللغة). تُعالج نموذج ViLA كلاً من استخلاص الإطارات الفعّال وتوافق الوسائط المتقاطعة بشكل موحّد. في شبكة ViLA، قمنا بتصميم مُحفّز إطارات قابل للتعلم يُوجّهه النص (Frame-Prompter) جديد، إلى جانب وحدة جديدة للاستخلاص المتقاطع (QFormer-Distiller). أظهرت النماذج الكبيرة المُدرّبة مسبقًا للصورة واللغة نتائج واعدة في مسائل مثل الإجابة على الأسئلة المرئية (VQA). ومع ذلك، لا يزال التحدي الرئيسي يتمثل في كيفية استخلاص إطارات الفيديو بشكل فعّال وفعّال عند تكييف النماذج الكبيرة المُدرّبة مسبقًا للصورة واللغة مع التوافق بين الفيديو واللغة. مقارنةً بالعمل السابق، يُظهر نموذج ViLA قدرته على اختيار الإطارات الأساسية التي تحتوي على محتوى حاسم، مما يُحسّن دقة التوافق بين الفيديو واللغة مع تقليل زمن الاستجابة (بزيادة بنسبة 3.3% على NExT-QA Temporal مع تسريع بنسبة 3.0 مرة). بشكل عام، يتفوّق نموذج ViLA على أفضل الطرق الحالية في معايير الإجابة على الأسئلة المرئية: بزيادة بنسبة 4.6% على STAR Interaction، و2.2% على متوسط STAR مع تسريع بنسبة 3.0 مرة، ويتفوّق نموذجنا باستخدام إطاراتين على نموذج SeViLA باستخدام أربع إطارات على مجموعة بيانات VLEP مع تسريع بنسبة 4.2 مرة. سيتم إتاحة الكود على الرابط: https://github.com/xijun-cs/ViLA.

فيلا: محاذاة الفيديو واللغة الفعالة لاستجابة الأسئلة حول الفيديو | أحدث الأوراق البحثية | HyperAI