الوصف البصري المُوجَّه بالسؤال للإجابة على الأسئلة حول الفيديو بدون تدريب مسبق

نقدّم Q-ViD، وهي طريقة بسيطة لحل أسئلة الفيديو (video QA)، والتي تختلف عن الطرق السابقة التي تعتمد على هياكل معقدة أو سير عمل مكلفة حسابيًا أو استخدام نماذج مغلقة مثل نماذج GPT. تعتمد Q-ViD على نموذج بصري لغوي مفتوح واحد مُوجّه بالتعليمات (InstructBLIP) لمعالجة مهام سؤال الفيديو باستخدام وصف الإطارات. بشكل محدد، نقوم بإنشاء أوامر توليد وصف (captioning instruction prompts) تعتمد على الأسئلة المستهدفة المتعلقة بالفيديوهات، ونستفيد من نموذج InstructBLIP للحصول على وصفات إطارات الفيديو التي تكون ذات صلة بالمهام المطلوبة. بعد ذلك، نُكوّن وصفًا شاملاً للفيديو باستخدام وصفات الإطارات المعتمدة على السؤال، ثم نُقدّم هذه المعلومات مع أمر سؤال وجواب إلى نموذج لغة كبير (LLM). يُشكّل نموذج اللغة الكبير وحدة الاستدلال لدينا، ويؤدي الخطوة النهائية في مهام الإجابة على أسئلة متعددة الخيارات. تحقق الإطار البسيط Q-ViD أداءً تنافسيًا أو حتى أفضل من النماذج الحالية الأعلى تقدمًا في مجموعة متنوعة من مجموعات بيانات سؤال الفيديو، بما في ذلك NExT-QA، STAR، How2QA، TVQA وIntentQA.