جعل V في VQA ذات أهمية: رفع مستوى دور فهم الصور في الإجابة على الأسئلة البصرية

تعد المشاكل التي تقع على تقاطع الرؤية واللغة ذات أهمية كبيرة، سواء كأسئلة بحثية صعبة أو للكم الكبير من التطبيقات التي تتيحها. ومع ذلك، فإن الهيكل الداخلي لعالمنا والتحيز في لغتنا يميلان إلى أن يكونا إشارة أبسط للتعلم مقارنة بالوسائط البصرية، مما يؤدي إلى نماذج تتجاهل المعلومات البصرية وتسبب في وجود تقدير مبالغ فيه لقدراتها.نقترح التصدي لهذه الأولويات اللغوية في مهمة الإجابة على الأسئلة البصرية (VQA) وجعل الرؤية (الحرف V في VQA) ذات أهمية! تحديداً، نوازن مجموعة البيانات الشهيرة VQA جمع صور مكملة بحيث يتم ربط كل سؤال في مجموعتنا الموزونة ليس بصورة واحدة فحسب، بل بدلاً من ذلك بزوج من الصور المتشابهة التي تؤدي إلى إجابتين مختلفتين على السؤال نفسه. تم تصميم مجموعتنا بحيث تكون أكثر توازناً من مجموعة بيانات VQA الأصلية ولديها تقريباً ضعف عدد أزواج الصور-الأسئلة. يمكن الوصول إلى مجموعتنا الموزونة الكاملة على موقع www.visualqa.org كجزء من النسخة الثانية من مجموعة بيانات ومهمة الإجابة على الأسئلة البصرية (VQA v2.0).نقوم أيضاً بتقييم عدد من أفضل نماذج VQA الحالية على مجموعتنا الموزونة. أدت جميع النماذج بشكل سيء بكثير على مجموعتنا الموزونة، مما يشير إلى أنها قد تعلمت بالفعل استغلال الأولويات اللغوية. توفر هذه النتيجة أول دليل تجريبي واضح لما يبدو أنه شعور نوعي بين المحترفين.أخيراً، يتيح بروتوكول جمع البيانات الخاص بنا لاكتشاف الصور المكملة لنا تطوير نموذج قابل للتفسير جديد، والذي بالإضافة إلى تقديم إجابة لأي زوج (صورة، سؤال)، يقدم أيضاً شرحًا يستند إلى مثال مضاد. تحديدًا، يقوم بتحديد صورة مشابهة للصورة الأصلية ولكنه يعتقد أنها لديها إجابة مختلفة لنفس السؤال. يمكن لهذا الأمر المساعدة في بناء الثقة بين المستخدمين وأجهزة الكمبيوتر الخاصة بهم.