ChartQA: معيار لأسئلة الإجابة عن الرسوم البيانية مع الاستدلال البصري والمنطقي

الرسوم البيانية شائعة جدًا في تحليل البيانات. عند استكشاف الرسوم البيانية، غالبًا ما يطرح الأشخاص أسئلة معقدة تتضمن عدة عمليات منطقية وحسابية. كما يشاركون غالبًا إلى الخصائص البصرية للرسم البياني في أسئلتهم. ومع ذلك، فإن معظم المجموعات البيانات الحالية لا تركز على مثل هذه الأسئلة المعقدة، حيث تعتمد أسئلتها على قوالب محددة وتأتي الإجابات من مفردات ثابتة. في هذا البحث، نقدم مجموعة مقاييس كبيرة تغطي 9,600 سؤال كتبها البشر بالإضافة إلى 23,100 سؤال تم إنشاؤها من ملخصات الرسوم البيانية التي كتبها البشر. لمعالجة التحديات الفريدة في مجموعتنا المقاييس والتي تتعلق بالاستدلال البصري والمنطقي على الرسوم البيانية، نقدم نموذجين مستندين إلى المحولات (Transformers) يدمجان الخصائص البصرية وجدول بيانات الرسم البياني بطريقة موحدة للإجابة على الأسئلة. بينما حققت نماذجنا أفضل النتائج الحالية على المجموعات البيانات السابقة وعلى مجموعتنا المقاييس، فإن التقييم أيضًا كشف عن عدة تحديات في الإجابة على الأسئلة المعقدة التي تتطلب الاستدلال.请注意,为了保持专业性和准确性,“变压器”(Transformers)在这里特指一种深度学习模型,因此保留了其英文名称。其他术语均已使用通用的阿拉伯语译法。