FigureQA: مجموعة أشكال مُشَرَّحَة للمنطق البصري

نقدم FigureQA، وهو مكتبة للاستدلال البصري تحتوي على أكثر من مليون زوج سؤال-إجابة مرتبط بحوالي 100,000 صورة. تشمل هذه الصور رسومات اصطناعية ذات أسلوب علمي تنتمي إلى خمسة فئات: الرسوم البيانية الخطية، الرسوم البيانية النقاطية-الخطية، الرسوم البيانية الشريطية العمودية والأفقية، والرسوم البيانية الدائرية (pie charts). نصوغ مهمتنا في الاستدلال من خلال إنشاء أسئلة من 15 قالبًا؛ تتعلق هذه الأسئلة بالعلاقات المختلفة بين عناصر الرسم البياني وتبحث في خصائص مثل القيمة القصوى، القيمة الدنيا، المساحة تحت المنحنى، الانسيابية، والتقاطع.لتسهيل تدريب أنظمة التعلم الآلي، يشتمل المكتبة أيضًا على بيانات جانبية يمكن استخدامها لصياغة أهداف مساعدة. بشكل خاص، نوفر البيانات العددية المستخدمة لإنشاء كل رسم بياني بالإضافة إلى شروحات الصناديق الحدودية لجميع عناصر الرسم البياني. ندرس المهمة المقترحة في الاستدلال البصري من خلال تدريب عدة نماذج، بما في ذلك شبكة العلاقات (Relation Network) التي تم اقتراحها مؤخرًا كأساس قوي للمقارنة. تشير النتائج الأولية إلى أن هذه المهمة تمثل تحديًا كبيرًا للتعلم الآلي. نرى أن FigureQA هو خطوة أولى نحو تطوير نماذج قادرة على التعرف بحدس على الأنماط من التمثيلات البصرية للبيانات.