HyperAIHyperAI
منذ 2 أشهر

نموذج الانتباه المتعدد الأوضاع مع ذاكرة متنوعة لأسئلة الفيديو وإجابتها

Chenyou Fan; Xiaofan Zhang; Shu Zhang; Wensheng Wang; Chi Zhang; Heng Huang
نموذج الانتباه المتعدد الأوضاع مع ذاكرة متنوعة لأسئلة الفيديو وإجابتها
الملخص

في هذا البحث، نقترح إطارًا جديدًا قابلًا للتدريب من البداية إلى النهاية لأسئلة الفيديو و أجوبتها (VideoQA) يتكون من ثلاثة مكونات رئيسية: 1) ذاكرة متجانسة جديدة يمكنها تعلم المعلومات السياقية العالمية بفعالية من خصائص المظهر والحركة؛ 2) ذاكرة الأسئلة مصممة بشكل جديد تساعد في فهم الدلالات المعقدة للسؤال وتبرز الموضوعات المستفسرة عنها؛ و3) طبقة دمج متعددة الوسائط جديدة تقوم بالاستدلال متعدد الخطوات من خلال التركيز على التلميحات البصرية والنصية ذات الصلة مع اهتمام ذاتي يتم تحديثه تلقائيًا. يولد نموذج VideoQA الخاص بنا أولاً الخصائص البصرية والنصية الواعية للسياق العالمي على التوالي من خلال تفاعل المدخلات الحالية مع محتويات الذاكرة. بعد ذلك، يقوم بدمج انتقائي للتمثيلات البصرية والنصية المتعددة الوسائط لاستنتاج الإجابة الصحيحة. يمكن إجراء دورة متعددة من الاستدلال لتكرار تحسين أوزان الاهتمام للمعلومات المتعددة الوسائط وتحسين التمثيل النهائي للزوج السؤال-الإجابة. تُظهر النتائج التجريبية أن نهجنا يحقق أداءً رائدًا في أربع مجموعات بيانات مرجعية لـ VideoQA.

نموذج الانتباه المتعدد الأوضاع مع ذاكرة متنوعة لأسئلة الفيديو وإجابتها | أحدث الأوراق البحثية | HyperAI