HyperAIHyperAI

Command Palette

Search for a command to run...

BIMBA: ضغط المسح المُنتقى للإجابة على الأسئلة في الفيديو ذي النطاق الطويل

Md Mohaiminul Islam Tushar Nagarajan Huiyu Wang Gedas Bertasius Lorenzo Torresani

الملخص

إجابة الأسئلة المتعلقة بالفيديو (VQA) في مقاطع الفيديو الطويلة تواجه التحدي الرئيسي المتمثل في استخراج المعلومات ذات الصلة ونمذجة الاعتماديات الطويلة النطاق من عدد كبير من الإطارات المتكررة. توفر آلية الانتباه الذاتي حلًا عامًا لنمذجة التسلسلات، لكنها تُعدّ مكلفة جدًا عند تطبيقها على عدد هائل من الرموز الفضائية-الزمنية في مقاطع الفيديو الطويلة. تعتمد معظم الطرق السابقة على استراتيجيات التقليل من الحجم لتقليل التكلفة الحسابية، مثل تقليل طول المدخلات عبر أخذ عينات من الإطارات بشكل متباعد، أو تقليل تسلسل المخرجات المُرسل إلى نموذج اللغة الكبير (LLM) باستخدام التجميع الفضائي-الزمني. ومع ذلك، فإن هذه الطرق البسيطة تُبرز بشكل مفرط المعلومات المتكررة، وغالبًا ما تفوت الأحداث المميزة أو الأنماط الفضائية-الزمنية السريعة الحدوث. في هذه الدراسة، نقدم BIMBA، وهو نموذج فعّال من نوع الحالة الفضائية للتعامل مع مقاطع الفيديو الطويلة. يعتمد نموذجنا على خوارزمية المسح الاختياري لتعلم اختيار المعلومات الحاسمة بكفاءة من مقاطع الفيديو عالية الأبعاد، ثم تحويلها إلى تسلسل رموز مختصر لمعالجتها بكفاءة بواسطة نموذج اللغة الكبير. تُظهر التجارب الواسعة أن BIMBA يحقق دقة متقدمة على مستوى العالم في العديد من مجموعات بيانات VQA الطويلة، بما في ذلك PerceptionTest، وNExT-QA، وEgoSchema، وVNBench، وLongVideoBench، وVideo-MME. يُمكن الوصول إلى الكود والنماذج بشكل عام عبر الرابط التالي: https://sites.google.com/view/bimba-mllm.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp