VQA: الإجابة على الأسئلة البصرية

نقترح مهمة الإجابة على الأسئلة البصرية (VQA) بحرية مطلقة وبشكل مفتوح. بالنظر إلى صورة وسؤال بلغة طبيعية عن هذه الصورة، فإن المهمة هي تقديم إجابة دقيقة بلغة طبيعية. تعكس هذه المهمة السيناريوهات الحقيقية مثل مساعدة ذوي الاحتياجات الخاصة البصريين، حيث تكون الأسئلة والإجابات مفتوحة. تركز الأسئلة البصرية بشكل انتقائي على مناطق مختلفة من الصورة، بما في ذلك تفاصيل الخلفية والسياق الكامن. نتيجة لذلك، يحتاج النظام الذي ينجح في VQA إلى فهم أكثر تفصيلاً للصورة وتفكير معقد أكثر من نظام ينتج عناوين صورية عامة. بالإضافة إلى ذلك، يمكن تقييم VQA تلقائياً، نظراً لأن العديد من الإجابات المفتوحة تحتوي فقط على كلمات قليلة أو مجموعة مغلقة من الإجابات يمكن تقديمها بصيغة الاختيار من متعدد. نوفر مجموعة بيانات تحتوي على حوالي 250,000 صورة وحوالي 760,000 سؤال وحوالي 10,000,000 إجابة (www.visualqa.org)، ونناقش المعلومات التي توفرها. يتم توفير وإجراء مقارنة بين العديد من الأساليب والأسس لـ VQA مع أداء الإنسان. يمكن الوصول إلى ديمو VQA الخاص بنا عبر CloudCV (http://cloudcv.org/vqa).