HyperAIHyperAI

Command Palette

Search for a command to run...

شبكات الذاكرة المشتركة للحركة والمظهر لأسئلة الفيديو والإجابة عليها

Jiyang Gao; Runzhou Ge; Kan Chen; Ram Nevatia

الملخص

الإجابة على الأسئلة المرئية (Video QA) هي مهمة مهمة في فهم بنية الفيديو الزمنية. نلاحظ أن هناك ثلاث خصائص فريدة للأسئلة المرئية مقارنة بالأسئلة المتعلقة بالصور الثابتة: (1) تعاملها مع سلاسل طويلة من الصور التي تحتوي على معلومات غنية ليس فقط من حيث الكمية ولكن أيضًا من حيث التنوع؛ (2) تكون معلومات الحركة والمظهر غالبًا مرتبطة ببعضها البعض ويمكنها توفير مؤشرات انتباه مفيدة للآخر؛ (3) تتطلب أسئلة مختلفة عددًا مختلفًا من الإطارات لاستنتاج الإجابة. استنادًا إلى هذه الملاحظات، نقترح شبكة ذاكرة مشتركة للحركة والمظهر (motion-appearance comemory network) للأسئلة المرئية. تُبنى شبكاتنا على مفاهيم من شبكة الذاكرة الديناميكية (Dynamic Memory Network - DMN) وroduce new mechanisms for video QA. تحديدًا، هناك ثلاثة جوانب بارزة: (1) آلية انتباه الذاكرة المشتركة التي تستفيد من مؤشرات كل من الحركة والمظهر لإنشاء الانتباه؛ (2) شبكة التحويل والتحويل العكسي الزمنية (temporal conv-deconv network) لإنشاء حقائق سياقية متعددة المستويات؛ (3) طريقة تجميع الحقائق الديناميكي لتكون تمثيلًا زمنيًا ديناميكيًا يتناسب مع أسئلة مختلفة. قمنا بتقييم طريقتنا على مجموعة بيانات TGIF-QA، وقد أظهرت النتائج تفوقًا كبيرًا على أفضل التقنيات الموجودة في جميع المهام الأربعة لمجموعة بيانات TGIF-QA.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp