HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 3 أشهر

MMTF: تجميع متعدد الوسائط زمني للإجابة على أسئلة الفيديو ذات المنطق العام

{Sanguk Park Dongchan Park Geonwoo Park Mobeen Ahmad}

MMTF: تجميع متعدد الوسائط زمني للإجابة على أسئلة الفيديو ذات المنطق العام

الملخص

إجابة الأسئلة المتعلقة بالفيديوهات هي مهمة صعبة تتطلب فهم الفيديو والسؤال في نفس السياق. وتزداد صعوبة هذه المهمة عندما تتضمن الأسئلة تفكيرًا منطقيًا، مثل التنبؤ بال אירועים المستقبلية أو تفسير الأحداث المضادة للواقع، لأنها تتطلب معرفة لا تُعرض صراحةً. تستخدم الطرق الحالية دمجًا خشنًا للخصائص المرئية واللغوية، مما يتجاهل المعلومات الزمنية. ولحل هذه المشكلة، نقترح وحدة دمج جديدة للصورة والنص تتعلم السياق الزمني للفيديو والسؤال. تتمدد فيها علامات السؤال على المحور الزمني للفيديو، ثم تُدمج مع خصائص الفيديو لإنشاء تمثيلات جديدة تتمتع بسياق محلي وعالمي. وقد قمنا بتقييم طريقةنا على أربع مجموعات بيانات لـ VideoQA، بما في ذلك MSVD-QA وNExT-QA وCausal-VidQA وAGQA-2.0.

المعايير القياسية

معيار قياسيالمنهجيةالمقاييس
video-question-answering-on-agqa-2-0-balancedMMTF
Average Accuracy: 44.36

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
MMTF: تجميع متعدد الوسائط زمني للإجابة على أسئلة الفيديو ذات المنطق العام | الأوراق البحثية | HyperAI