HyperAIHyperAI
منذ 9 أيام

BIMBA: ضغط المسح المُنتقى للإجابة على الأسئلة في الفيديو ذي النطاق الطويل

Md Mohaiminul Islam, Tushar Nagarajan, Huiyu Wang, Gedas Bertasius, Lorenzo Torresani
BIMBA: ضغط المسح المُنتقى للإجابة على الأسئلة في الفيديو ذي النطاق الطويل
الملخص

إجابة الأسئلة المتعلقة بالفيديو (VQA) في مقاطع الفيديو الطويلة تواجه التحدي الرئيسي المتمثل في استخراج المعلومات ذات الصلة ونمذجة الاعتماديات الطويلة النطاق من عدد كبير من الإطارات المتكررة. توفر آلية الانتباه الذاتي حلًا عامًا لنمذجة التسلسلات، لكنها تُعدّ مكلفة جدًا عند تطبيقها على عدد هائل من الرموز الفضائية-الزمنية في مقاطع الفيديو الطويلة. تعتمد معظم الطرق السابقة على استراتيجيات التقليل من الحجم لتقليل التكلفة الحسابية، مثل تقليل طول المدخلات عبر أخذ عينات من الإطارات بشكل متباعد، أو تقليل تسلسل المخرجات المُرسل إلى نموذج اللغة الكبير (LLM) باستخدام التجميع الفضائي-الزمني. ومع ذلك، فإن هذه الطرق البسيطة تُبرز بشكل مفرط المعلومات المتكررة، وغالبًا ما تفوت الأحداث المميزة أو الأنماط الفضائية-الزمنية السريعة الحدوث. في هذه الدراسة، نقدم BIMBA، وهو نموذج فعّال من نوع الحالة الفضائية للتعامل مع مقاطع الفيديو الطويلة. يعتمد نموذجنا على خوارزمية المسح الاختياري لتعلم اختيار المعلومات الحاسمة بكفاءة من مقاطع الفيديو عالية الأبعاد، ثم تحويلها إلى تسلسل رموز مختصر لمعالجتها بكفاءة بواسطة نموذج اللغة الكبير. تُظهر التجارب الواسعة أن BIMBA يحقق دقة متقدمة على مستوى العالم في العديد من مجموعات بيانات VQA الطويلة، بما في ذلك PerceptionTest، وNExT-QA، وEgoSchema، وVNBench، وLongVideoBench، وVideo-MME. يُمكن الوصول إلى الكود والنماذج بشكل عام عبر الرابط التالي: https://sites.google.com/view/bimba-mllm.

BIMBA: ضغط المسح المُنتقى للإجابة على الأسئلة في الفيديو ذي النطاق الطويل | أحدث الأوراق البحثية | HyperAI