HyperAIHyperAI

Command Palette

Search for a command to run...

نموذج الانتباه المتعدد الأوضاع مع ذاكرة متنوعة لأسئلة الفيديو وإجابتها

Chenyou Fan extsuperscript1,* Xiaofan Zhang extsuperscript1 Shu Zhang extsuperscript1 Wensheng Wang extsuperscript1 Chi Zhang extsuperscript1 Heng Huang extsuperscript1,2,*

الملخص

في هذا البحث، نقترح إطارًا جديدًا قابلًا للتدريب من البداية إلى النهاية لأسئلة الفيديو و أجوبتها (VideoQA) يتكون من ثلاثة مكونات رئيسية: 1) ذاكرة متجانسة جديدة يمكنها تعلم المعلومات السياقية العالمية بفعالية من خصائص المظهر والحركة؛ 2) ذاكرة الأسئلة مصممة بشكل جديد تساعد في فهم الدلالات المعقدة للسؤال وتبرز الموضوعات المستفسرة عنها؛ و3) طبقة دمج متعددة الوسائط جديدة تقوم بالاستدلال متعدد الخطوات من خلال التركيز على التلميحات البصرية والنصية ذات الصلة مع اهتمام ذاتي يتم تحديثه تلقائيًا. يولد نموذج VideoQA الخاص بنا أولاً الخصائص البصرية والنصية الواعية للسياق العالمي على التوالي من خلال تفاعل المدخلات الحالية مع محتويات الذاكرة. بعد ذلك، يقوم بدمج انتقائي للتمثيلات البصرية والنصية المتعددة الوسائط لاستنتاج الإجابة الصحيحة. يمكن إجراء دورة متعددة من الاستدلال لتكرار تحسين أوزان الاهتمام للمعلومات المتعددة الوسائط وتحسين التمثيل النهائي للزوج السؤال-الإجابة. تُظهر النتائج التجريبية أن نهجنا يحقق أداءً رائدًا في أربع مجموعات بيانات مرجعية لـ VideoQA.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp