HyperAIHyperAI

Command Palette

Search for a command to run...

الانتباه البصري-النصي المركزي لأسئلة الإجابة البصرية

Junwei Liang Lu Jiang Liangliang Cao Li-Jia Li Alexander Hauptmann

الملخص

الإدراكات الحديثة حول اللغة والرؤية باستخدام الشبكات العصبية قد تم تطبيقها بنجاح على الإجابات البصرية البسيطة للأسئلة المتعلقة بالصور الفردية. ومع ذلك، لمعالجة مشاكل الإجابة على الأسئلة في الحياة الحقيقية من مجموعات الوسائط المتعددة مثل الصور الشخصية، يجب علينا النظر إلى المجموعات الكاملة التي تحتوي على سلاسل من الصور أو مقاطع الفيديو. عند الإجابة على أسئلة من مجموعة كبيرة، يظهر مشكلة طبيعية وهي تحديد المقاطع الداعمة للإجابة. في هذا البحث، نصف شبكة عصبية جديدة تُسمى شبكة الانتباه البصري-النصي المركزة (FVTA) لإجراء الاستدلال الجماعي في إجابات الأسئلة البصرية، حيث يتم تقديم معلومات متتابعة بصرية ونصية مثل الصور والبيانات الوصفية للنص. تقوم FVTA بتقديم نهج شامل يعتمد على عملية هرمية لتحديد الديناميكي ما الوسائط وما الوقت الذي يجب التركيز عليهما في البيانات المتتابعة للإجابة على السؤال. يمكن لـ FVTA ليس فقط الإجابة على الأسئلة بشكل جيد بل أيضًا تقديم التبريرات التي تعتمد عليها النتائج التي أنتجتها النظام للحصول على الإجابات. تحقق FVTA أفضل الأداء حتى الآن على مجموعة بيانات MemexQA وأداءً تنافسيًا على مجموعة بيانات MovieQA.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
الانتباه البصري-النصي المركزي لأسئلة الإجابة البصرية | مستندات | HyperAI