HyperAIHyperAI
منذ 2 أشهر

R-VQA: تعلم حقائق العلاقات البصرية باستخدام الانتباه الدلالي للإجابة على الأسئلة البصرية

Pan Lu; Lei Ji; Wei Zhang; Nan Duan; Ming Zhou; Jianyong Wang
R-VQA: تعلم حقائق العلاقات البصرية باستخدام الانتباه الدلالي للإجابة على الأسئلة البصرية
الملخص

في الآونة الأخيرة، ظهرت إجابة الأسئلة المرئية (Visual Question Answering - VQA) كواحدة من أهم المهام في التعلم متعدد الوسائط، حيث تتطلب فهمًا لكل من الوسائط البصرية والنصية. تعتمد الأساليب الحالية بشكل أساسي على استخراج ميزات الصورة والسؤال لتعلم تضمين الميزات المشتركة بينهما عبر التكامل متعدد الوسائط أو آليات الانتباه. استخدم بعض الدراسات الحديثة نماذج خارجية مستقلة عن VQA لاكتشاف الكيانات أو الصفات المرشحة في الصور، والتي تعمل كمعارف معنوية مكملة لمهمة VQA. ومع ذلك، قد تكون هذه الكيانات أو الصفات غير ذات صلة بمهمة VQA ولديها قدرات معنوية محدودة. لاستخدام أفضل للمعرفة المعنوية في الصور، نقترح إطارًا جديدًا لتعلم حقائق العلاقات البصرية لـ VQA. تحديدًا، نقوم ببناء مجموعة بيانات (R-VQA) قائمة على مجموعة بيانات Visual Genome من خلال وحدة تشابه معنوي، حيث يتألف كل سجل من الصورة والسؤال المقابل والإجابة الصحيحة وحقيقة العلاقة الداعمة. ثم يتم اعتماد كاشف علاقات محدد جيدًا للتنبؤ بحقائق العلاقات المرتبطة بالأسئلة البصرية. نقترح أيضًا نموذج انتباه متعدد الخطوات يتكون من انتباه بصري وانتباه معنوي بالتتابع لاستخراج المعرفة البصرية والمعرفة المعنوية المرتبطة. أجرينا تجارب شاملة على مجموعتي بيانات معياريتين، مما أظهر أن نموذجنا يحقق أداءً رائدًا ويؤكد فائدة الأخذ بعين الاعتبار حقائق العلاقات البصرية.

R-VQA: تعلم حقائق العلاقات البصرية باستخدام الانتباه الدلالي للإجابة على الأسئلة البصرية | أحدث الأوراق البحثية | HyperAI