Command Palette
Search for a command to run...
FigureQA: مجموعة بيانات مصورة مُعلّمة للاستدلال البصري
FigureQA: مجموعة بيانات مصورة مُعلّمة للاستدلال البصري
الملخص
نُقدِّم "FigureQA"، وهو مجموعة بيانات لاستنتاج بصري تتضمّن أكثر من مليون زوج من الأسئلة والإجابات، مبنية على أكثر من 100,000 صورة. وتُعدّ الصور مُولَّدة صناعيًا، وتحاكي الرسوم العلمية من خمسة أنواع: الرسوم الخطية، والرسوم النقطية الخطية، والرسوم البيانية العمودية والأفقية، والرسوم الدائرية. ونُصاغ مهمة الاستنتاج لدينا من خلال إنشاء أسئلة باستخدام 15 نموذجًا (Template)؛ وتتناول هذه الأسئلة علاقات متنوعة بين عناصر الرسم البياني، وتُختبر خصائص مثل القيمة العظمى، والقيمة الصغرى، ومساحة المنطقة تحت المنحنى، وسلاسة الخط، ونقطة التقاطع. ولحل هذه الأسئلة، غالبًا ما يتطلب الأمر الرجوع إلى عناصر متعددة في الرسم البياني، ودمج المعلومات الموزعة مكانيًا عبر الصورة. ولتسهيل تدريب الأنظمة القائمة على التعلم الآلي، تشمل المجموعة أيضًا بيانات جانبية يمكن استخدامها لصياغ أهداف مساعدة. وتحديدًا، نقدّم البيانات العددية المستخدمة في إنشاء كل رسم بياني، بالإضافة إلى تسميات مربعات الحدود (Bounding-box annotations) لكل عناصر الرسم البياني. ونُجرِّي دراسةً للوظيفة البصرية المقترحة من خلال تدريب عدة نماذج، بما في ذلك شبكة العلاقات (Relation Network) التي تم اقتراحها مؤخرًا كنقطة مرجعية قوية. وتشير النتائج الأولية إلى أن هذه المهمة تمثل تحديًا كبيرًا في مجال التعلم الآلي. ونُصوّر "FigureQA" كخطوة أولى نحو تطوير نماذج قادرة على التعرف التلقائي على الأنماط من التمثيلات البصرية للبيانات.