منذ 6 أشهر

الملخص

إجابة الأسئلة المتعلقة بالفيديوهات هي مهمة صعبة تتطلب فهم الفيديو والسؤال في نفس السياق. وتزداد صعوبة هذه المهمة عندما تتضمن الأسئلة تفكيرًا منطقيًا، مثل التنبؤ بال אירועים المستقبلية أو تفسير الأحداث المضادة للواقع، لأنها تتطلب معرفة لا تُعرض صراحةً. تستخدم الطرق الحالية دمجًا خشنًا للخصائص المرئية واللغوية، مما يتجاهل المعلومات الزمنية. ولحل هذه المشكلة، نقترح وحدة دمج جديدة للصورة والنص تتعلم السياق الزمني للفيديو والسؤال. تتمدد فيها علامات السؤال على المحور الزمني للفيديو، ثم تُدمج مع خصائص الفيديو لإنشاء تمثيلات جديدة تتمتع بسياق محلي وعالمي. وقد قمنا بتقييم طريقةنا على أربع مجموعات بيانات لـ VideoQA، بما في ذلك MSVD-QA وNExT-QA وCausal-VidQA وAGQA-2.0.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار