منذ 6 أشهر

الملخص

إجابة الأسئلة المتعلقة بالفيديو (VQA) في مقاطع الفيديو الطويلة تواجه التحدي الرئيسي المتمثل في استخراج المعلومات ذات الصلة ونمذجة الاعتماديات الطويلة النطاق من عدد كبير من الإطارات المتكررة. توفر آلية الانتباه الذاتي حلًا عامًا لنمذجة التسلسلات، لكنها تُعدّ مكلفة جدًا عند تطبيقها على عدد هائل من الرموز الفضائية-الزمنية في مقاطع الفيديو الطويلة. تعتمد معظم الطرق السابقة على استراتيجيات التقليل من الحجم لتقليل التكلفة الحسابية، مثل تقليل طول المدخلات عبر أخذ عينات من الإطارات بشكل متباعد، أو تقليل تسلسل المخرجات المُرسل إلى نموذج اللغة الكبير (LLM) باستخدام التجميع الفضائي-الزمني. ومع ذلك، فإن هذه الطرق البسيطة تُبرز بشكل مفرط المعلومات المتكررة، وغالبًا ما تفوت الأحداث المميزة أو الأنماط الفضائية-الزمنية السريعة الحدوث. في هذه الدراسة، نقدم BIMBA، وهو نموذج فعّال من نوع الحالة الفضائية للتعامل مع مقاطع الفيديو الطويلة. يعتمد نموذجنا على خوارزمية المسح الاختياري لتعلم اختيار المعلومات الحاسمة بكفاءة من مقاطع الفيديو عالية الأبعاد، ثم تحويلها إلى تسلسل رموز مختصر لمعالجتها بكفاءة بواسطة نموذج اللغة الكبير. تُظهر التجارب الواسعة أن BIMBA يحقق دقة متقدمة على مستوى العالم في العديد من مجموعات بيانات VQA الطويلة، بما في ذلك PerceptionTest، وNExT-QA، وEgoSchema، وVNBench، وLongVideoBench، وVideo-MME. يُمكن الوصول إلى الكود والنماذج بشكل عام عبر الرابط التالي: https://sites.google.com/view/bimba-mllm.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Md Mohaiminul Islam Tushar Nagarajan Huiyu Wang Gedas Bertasius Lorenzo Torresani

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Md Mohaiminul Islam Tushar Nagarajan Huiyu Wang Gedas Bertasius Lorenzo Torresani

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Md Mohaiminul Islam Tushar Nagarajan Huiyu Wang Gedas Bertasius Lorenzo Torresani

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

BIMBA: ضغط المسح المُنتقى للإجابة على الأسئلة في الفيديو ذي النطاق الطويل

Md Mohaiminul Islam Tushar Nagarajan Huiyu Wang Gedas Bertasius Lorenzo Torresani

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

BIMBA: ضغط المسح المُنتقى للإجابة على الأسئلة في الفيديو ذي النطاق الطويل

Md Mohaiminul Islam Tushar Nagarajan Huiyu Wang Gedas Bertasius Lorenzo Torresani

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

BIMBA: ضغط المسح المُنتقى للإجابة على الأسئلة في الفيديو ذي النطاق الطويل

Md Mohaiminul Islam Tushar Nagarajan Huiyu Wang Gedas Bertasius Lorenzo Torresani

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters