الاستدلال البصري: مهمة جديدة لفهم الصور بدقة عالية

الملفات المعروفة للبيانات المجمعة للاستدلال البصري، مثل بيانات الإجابة على الأسئلة البصرية (VQA)، غالباً ما تعاني من التحيزات المرتبطة بتوزيع الأسئلة أو الصور أو الإجابات. يعالج مجموعة البيانات المقترحة حديثاً CLEVR هذه القيود ويحتاج إلى استدلال دقيق، ولكن المجموعة صناعية وتحتوي على أشياء متشابهة وأبنية جمل متكررة عبر المجموعة.في هذا البحث، نقدم مهمة استدلال جديدة تسمى الاستدلال البصري (VE) - وهي تتكون من أزواج الصورة-الجملة حيث يتم تعريف الفرضية بوساطة صورة بدلاً من جملة بلغة طبيعية كما هو الحال في مهام الاستدلال النصي التقليدية. الهدف من نموذج VE المدرب هو التنبؤ بما إذا كانت الصورة تحتوي على معنى الجملة بشكل انتقالي. لتحقيق هذه المهمة، قمنا ببناء مجموعة بيانات SNLI-VE بناءً على مجمع الاستدلال اللغوي الطبيعي لستانفورد وقاعدة بيانات Flickr30k. قمنا بتقييم العديد من النماذج الأساسية القائمة لـ VQA وبناء نظام يُدعى الاستدلال البصري القابل للتفسير (EVE) لمعالجة مهمة VE. يصل نظام EVE إلى دقة تصل إلى 71٪ ويتفوق على عدة نماذج أخرى قائمة على VQA تعتبر من أفضل ما تم إنجازه في هذا المجال. وأخيراً، نوضح قابلية تفسير EVE من خلال تصورات الانتباه المتعدد الوسائط. يمكن الوصول إلى مجموعة بيانات SNLI-VE علنيًا عبر الرابط: https://github.com/necla-ml/SNLI-VE.