GeoQA: معيار إجابة الأسئلة الهندسية نحو الاستدلال العددي متعدد الوسائط

حل المشكلات الرياضية تلقائيًا قد لاقى اهتمامًا متزايدًا مؤخرًا كمقياس قياسي طويل الأمد للذكاء الاصطناعي. في هذه الورقة، نركّز على حل المشكلات الهندسية، التي تتطلب فهمًا شاملاً للوصف النصي، والرسوم التوضيحية البصرية، والمعرفة بالنظريات. ومع ذلك، كانت الطرق الحالية تعتمد بشكل كبير على قواعد مصممة يدويًا، وتم تقييمها فقط على مجموعات بيانات صغيرة الحجم. لذلك، نقترح مجموعة بيانات لحل الأسئلة الهندسية تُسمى GeoQA، وتحتوي على 4998 مشكلة هندسية مع برامج مُعلّمة مُقابلة، والتي توضح عملية الحل للمشكلات المقدمة. مقارنةً بمجموعة البيانات العامة الأخرى GeoS، فإن GeoQA أكبر بـ25 مرة، حيث يمكن للتعليقات البرمجية أن توفر بيئة تجريبية عملية للأبحاث المستقبلية المتعلقة بالاستدلال العددي الصريح والقابل للتفسير. علاوةً على ذلك، نقدّم حلّاً هندسيًا عصبيًا (NGS) لمعالجة المشكلات الهندسية من خلال تحليل شامل للمعلومات متعددة الوسائط وإنشاء برامج قابلة للتفسير. ونضيف أيضًا مهام مساعدة ذاتية التدريب متعددة على NGS لتعزيز التمثيل الدلالي بين الوسائط المختلفة. وقد أثبتت التجارب الواسعة على GeoQA فعالية NGS المُقترح والمهام المساعدة. ومع ذلك، تظل النتائج أقل بكثير من الأداء البشري، مما يترك مجالًا واسعًا للبحث المستقبلي. تم إصدار معيارنا والكود الخاص بنا على الرابط التالي: https://github.com/chen-judge/GeoQA.