Command Palette
Search for a command to run...
شبكات الذاكرة المشتركة للحركة والمظهر لأسئلة الفيديو والإجابة عليها
شبكات الذاكرة المشتركة للحركة والمظهر لأسئلة الفيديو والإجابة عليها
Jiyang Gao; Runzhou Ge; Kan Chen; Ram Nevatia
الملخص
الإجابة على الأسئلة المرئية (Video QA) هي مهمة مهمة في فهم بنية الفيديو الزمنية. نلاحظ أن هناك ثلاث خصائص فريدة للأسئلة المرئية مقارنة بالأسئلة المتعلقة بالصور الثابتة: (1) تعاملها مع سلاسل طويلة من الصور التي تحتوي على معلومات غنية ليس فقط من حيث الكمية ولكن أيضًا من حيث التنوع؛ (2) تكون معلومات الحركة والمظهر غالبًا مرتبطة ببعضها البعض ويمكنها توفير مؤشرات انتباه مفيدة للآخر؛ (3) تتطلب أسئلة مختلفة عددًا مختلفًا من الإطارات لاستنتاج الإجابة. استنادًا إلى هذه الملاحظات، نقترح شبكة ذاكرة مشتركة للحركة والمظهر (motion-appearance comemory network) للأسئلة المرئية. تُبنى شبكاتنا على مفاهيم من شبكة الذاكرة الديناميكية (Dynamic Memory Network - DMN) وroduce new mechanisms for video QA. تحديدًا، هناك ثلاثة جوانب بارزة: (1) آلية انتباه الذاكرة المشتركة التي تستفيد من مؤشرات كل من الحركة والمظهر لإنشاء الانتباه؛ (2) شبكة التحويل والتحويل العكسي الزمنية (temporal conv-deconv network) لإنشاء حقائق سياقية متعددة المستويات؛ (3) طريقة تجميع الحقائق الديناميكي لتكون تمثيلًا زمنيًا ديناميكيًا يتناسب مع أسئلة مختلفة. قمنا بتقييم طريقتنا على مجموعة بيانات TGIF-QA، وقد أظهرت النتائج تفوقًا كبيرًا على أفضل التقنيات الموجودة في جميع المهام الأربعة لمجموعة بيانات TGIF-QA.