HyperAIHyperAI
منذ 9 أيام

MMTF: تجميع متعدد الوسائط زمني للإجابة على أسئلة الفيديو ذات المنطق العام

{Sanguk Park, Dongchan Park, Geonwoo Park, Mobeen Ahmad}
MMTF: تجميع متعدد الوسائط زمني للإجابة على أسئلة الفيديو ذات المنطق العام
الملخص

إجابة الأسئلة المتعلقة بالفيديوهات هي مهمة صعبة تتطلب فهم الفيديو والسؤال في نفس السياق. وتزداد صعوبة هذه المهمة عندما تتضمن الأسئلة تفكيرًا منطقيًا، مثل التنبؤ بال אירועים المستقبلية أو تفسير الأحداث المضادة للواقع، لأنها تتطلب معرفة لا تُعرض صراحةً. تستخدم الطرق الحالية دمجًا خشنًا للخصائص المرئية واللغوية، مما يتجاهل المعلومات الزمنية. ولحل هذه المشكلة، نقترح وحدة دمج جديدة للصورة والنص تتعلم السياق الزمني للفيديو والسؤال. تتمدد فيها علامات السؤال على المحور الزمني للفيديو، ثم تُدمج مع خصائص الفيديو لإنشاء تمثيلات جديدة تتمتع بسياق محلي وعالمي. وقد قمنا بتقييم طريقةنا على أربع مجموعات بيانات لـ VideoQA، بما في ذلك MSVD-QA وNExT-QA وCausal-VidQA وAGQA-2.0.

MMTF: تجميع متعدد الوسائط زمني للإجابة على أسئلة الفيديو ذات المنطق العام | أحدث الأوراق البحثية | HyperAI