HyperAIHyperAI
منذ 2 أشهر

الأسئلة والإجابات حول الأحداث الكثيفة في الفيديو

Qin, Hangyu ; Xiao, Junbin ; Yao, Angela
الأسئلة والإجابات حول الأحداث الكثيفة في الفيديو
الملخص

يقدم هذا البحث مهمة جديدة تتعلق بالأسئلة والأجوبة حول الأحداث الكثيفة في الفيديوهات الطويلة، وهي مهمة تجيب وتربط أسئلة الأحداث الكثيفة في مقاطع الفيديو الطويلة، مما يشكل تحديًا للنماذج اللغوية المتعددة الوسائط (MLLMs) لفهم وتحليل عدة أحداث على فترات زمنية ممتدة بدقة. لتسهيل الدراسة، قمنا ببناء مجموعة بيانات DeVE-QA التي تحتوي على 78 ألف سؤال عن 26 ألف حدث في 10.6 ألف فيديو طويل. أظهرت نتائج المعايير الخاصة بنا أن النماذج اللغوية المتعددة الوسائط الأكثر تقدمًا تعاني من صعوبات في التعامل مع DeVE-QA. لتحسين الأداء، اقترحنا DeVi، وهو نهج جديد للنماذج اللغوية المتعددة الوسائط بدون تدريب يركز على ثلاثة وحدات رئيسية: وحدة التسمية التوضيحية الهرمية، ووحدة ذاكرة الحدث الزمني، ووحدة التحقق من التجانس الذاتي. هذه الوحدات تعمل على اكتشاف الأحداث الكثيفة، وضعها في سياقها الزمني والذاكرة، وربطها بالأسئلة الموجهة إليها في الفيديوهات الطويلة. أظهرت التجارب الشاملة أن DeVi يتميز بأداء أفضل في الإجابة على أسئلة الأحداث الكثيفة وفي ربط اللحظات ذات الصلة من الفيديو. مقارنة بالنماذج اللغوية المتعددة الوسائط الموجودة حاليًا، حقق DeVi زيادة ملحوظة بنسبة 4.8% و2.1% في دقة G(round)QA على DeVE-QA وNExT-GQA على التوالي. يمكن الوصول إلى البيانات والكود عبر الرابط https://github.com/QHUni/DeVE-QA.