HyperAIHyperAI

Command Palette

Search for a command to run...

R-VQA: تعلم حقائق العلاقات البصرية باستخدام الانتباه الدلالي للإجابة على الأسئلة البصرية

Pan Lu Lei Ji Wei Zhang Nan Duan Ming Zhou Jianyong Wang

الملخص

في الآونة الأخيرة، ظهرت إجابة الأسئلة المرئية (Visual Question Answering - VQA) كواحدة من أهم المهام في التعلم متعدد الوسائط، حيث تتطلب فهمًا لكل من الوسائط البصرية والنصية. تعتمد الأساليب الحالية بشكل أساسي على استخراج ميزات الصورة والسؤال لتعلم تضمين الميزات المشتركة بينهما عبر التكامل متعدد الوسائط أو آليات الانتباه. استخدم بعض الدراسات الحديثة نماذج خارجية مستقلة عن VQA لاكتشاف الكيانات أو الصفات المرشحة في الصور، والتي تعمل كمعارف معنوية مكملة لمهمة VQA. ومع ذلك، قد تكون هذه الكيانات أو الصفات غير ذات صلة بمهمة VQA ولديها قدرات معنوية محدودة. لاستخدام أفضل للمعرفة المعنوية في الصور، نقترح إطارًا جديدًا لتعلم حقائق العلاقات البصرية لـ VQA. تحديدًا، نقوم ببناء مجموعة بيانات (R-VQA) قائمة على مجموعة بيانات Visual Genome من خلال وحدة تشابه معنوي، حيث يتألف كل سجل من الصورة والسؤال المقابل والإجابة الصحيحة وحقيقة العلاقة الداعمة. ثم يتم اعتماد كاشف علاقات محدد جيدًا للتنبؤ بحقائق العلاقات المرتبطة بالأسئلة البصرية. نقترح أيضًا نموذج انتباه متعدد الخطوات يتكون من انتباه بصري وانتباه معنوي بالتتابع لاستخراج المعرفة البصرية والمعرفة المعنوية المرتبطة. أجرينا تجارب شاملة على مجموعتي بيانات معياريتين، مما أظهر أن نموذجنا يحقق أداءً رائدًا ويؤكد فائدة الأخذ بعين الاعتبار حقائق العلاقات البصرية.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp