HyperAIHyperAI
منذ 2 أشهر

الانتباه البصري-النصي المركزي لأسئلة الإجابة البصرية

Junwei Liang; Lu Jiang; Liangliang Cao; Li-Jia Li; Alexander Hauptmann
الانتباه البصري-النصي المركزي لأسئلة الإجابة البصرية
الملخص

الإدراكات الحديثة حول اللغة والرؤية باستخدام الشبكات العصبية قد تم تطبيقها بنجاح على الإجابات البصرية البسيطة للأسئلة المتعلقة بالصور الفردية. ومع ذلك، لمعالجة مشاكل الإجابة على الأسئلة في الحياة الحقيقية من مجموعات الوسائط المتعددة مثل الصور الشخصية، يجب علينا النظر إلى المجموعات الكاملة التي تحتوي على سلاسل من الصور أو مقاطع الفيديو. عند الإجابة على أسئلة من مجموعة كبيرة، يظهر مشكلة طبيعية وهي تحديد المقاطع الداعمة للإجابة. في هذا البحث، نصف شبكة عصبية جديدة تُسمى شبكة الانتباه البصري-النصي المركزة (FVTA) لإجراء الاستدلال الجماعي في إجابات الأسئلة البصرية، حيث يتم تقديم معلومات متتابعة بصرية ونصية مثل الصور والبيانات الوصفية للنص. تقوم FVTA بتقديم نهج شامل يعتمد على عملية هرمية لتحديد الديناميكي ما الوسائط وما الوقت الذي يجب التركيز عليهما في البيانات المتتابعة للإجابة على السؤال. يمكن لـ FVTA ليس فقط الإجابة على الأسئلة بشكل جيد بل أيضًا تقديم التبريرات التي تعتمد عليها النتائج التي أنتجتها النظام للحصول على الإجابات. تحقق FVTA أفضل الأداء حتى الآن على مجموعة بيانات MemexQA وأداءً تنافسيًا على مجموعة بيانات MovieQA.

الانتباه البصري-النصي المركزي لأسئلة الإجابة البصرية | أحدث الأوراق البحثية | HyperAI