HyperAIHyperAI
منذ 7 أيام

ميست: محول فراغي-زمني تكراري متعدد الوسائط للإجابة على الأسئلة حول مقاطع الفيديو الطويلة

Difei Gao, Luowei Zhou, Lei Ji, Linchao Zhu, Yi Yang, Mike Zheng Shou
ميست: محول فراغي-زمني تكراري متعدد الوسائط للإجابة على الأسئلة حول مقاطع الفيديو الطويلة
الملخص

لبناء أنظمة إجابة الأسئلة حول الفيديو (VideoQA) القادرة على مساعدة البشر في الأنشطة اليومية، يُعدّ البحث عن إجابات من مقاطع فيديو طويلة تتضمن أحداثًا متنوعة ومعقدة أمرًا ضروريًا. تحقق النماذج الحالية متعددة الوسائط لـ VQA أداءً واعدًا على الصور أو مقاطع الفيديو القصيرة، خاصةً مع النجاح الأخير في التدريب المسبق على نطاق واسع متعدد الوسائط. ومع ذلك، عند تمديد هذه الطرق إلى مقاطع الفيديو الطويلة، تظهر تحديات جديدة. من ناحية، يُعدّ استخدام استراتيجية عينة الفيديو الكثيفة مكلفًا حسابيًا. ومن ناحية أخرى، تواجه الطرق التي تعتمد على عينة متباعدة صعوبات في السياقات التي تتطلب استنتاجًا بصريًا متعدد الأحداث ومتعدد الحدّة. في هذا العمل، نقدّم نموذجًا جديدًا يُسمّى "مُحول مكاني-زمني متعدد الوسائط متكرر" (MIST) لتحسين تكييف النماذج المُدرّبة مسبقًا لمهام VideoQA في مقاطع الفيديو الطويلة. بشكل خاص، يُفكّك MIST الانتباه الذاتي المكاني-الزمني التقليدي إلى وحدات متسلسلة لاختيار المقاطع والمناطق، حيث تُختار تلقائيًا الإطارات ومناطق الصور المرتبطة ارتباطًا وثيقًا بالسؤال نفسه. ثم يتم معالجة المفاهيم البصرية على مختلف مستويات التفصيل بكفاءة من خلال وحدة انتباه. بالإضافة إلى ذلك، يُجري MIST عمليات اختيار وانتباه متكررة عبر طبقات متعددة لدعم الاستنتاج حول عدة أحداث. أظهرت النتائج التجريبية على أربع مجموعات بيانات لـ VideoQA، تشمل AGQA وNExT-QA وSTAR وEnv-QA، أن MIST يحقق أداءً من الدرجة الأولى، ويتفوّق من حيث الكفاءة الحسابية والشفافية التفسيرية.

ميست: محول فراغي-زمني تكراري متعدد الوسائط للإجابة على الأسئلة حول مقاطع الفيديو الطويلة | أحدث الأوراق البحثية | HyperAI