FVQA: الإجابة على الأسئلة البصرية المستندة إلى الحقائق

جذب الإجابة على الأسئلة البصرية (VQA) اهتمامًا كبيرًا في مجتمعَي الرؤية الحاسوبية ومعالجة اللغة الطبيعية، وذلك ليس فقط لأنه يوفر رؤية للعلاقات بين مصدرَي معلومات مهمين. وقد ركزت المجموعات الحالية من البيانات والنموذجُون التي بُنيت عليها على أسئلة يمكن الإجابة عليها من خلال تحليل السؤال والصورة مباشرةً. مجموعة هذه الأسئلة التي لا تتطلب معلومات خارجية للإجابة عنها مثيرة للاهتمام ولكنها محدودة جدًا. فهي تستبعد الأسئلة التي تتطلب الفهم الشائع أو المعرفة الأساسية للإجابة عليها، مثل الأسئلة حول قدرات القطط على تسلق الأشجار.في هذا السياق، نقدم FVQA، وهي مجموعة بيانات لإجابات الأسئلة البصرية تتطلب دعمًا وأسبابًا أعمق بكثير. تحتوي FVQA فقط على أسئلة تحتاج إلى معلومات خارجية للإجابة عنها.لذا، نوسع مجموعة البيانات التقليدية للأسئلة البصرية، والتي تحتوي على ثلاثيات الصورة-السؤال-الإجابة، بإضافة رباعيات الصورة-السؤال-الإجابة-المعلومة الداعمة. يتم تمثيل المعلومة الداعمة كثلاثي هيكلي، مثل <قطة،قادرة_على،تسلق_الأشجار> (Cat, CapableOf, ClimbingTrees).نقيم عدة نماذج أساسية على مجموعة بيانات FVQA ونوصف نموذجًا جديدًا قادرًا على الاستدلال عن الصور بناءً على الحقائق الداعمة.