HyperAIHyperAI
منذ 17 أيام

QLEVR: مجموعة بيانات تشخيصية للغة الكمية والاستدلال البصري الأساسي

Zechen Li, Anders Søgaard
QLEVR: مجموعة بيانات تشخيصية للغة الكمية والاستدلال البصري الأساسي
الملخص

تم استخدام المجموعات الاصطناعية للبيانات بنجاح لاستكشاف قدرات الاستدلال في مجموعات بيانات الإجابة على الأسئلة البصرية. على سبيل المثال، تختبر مجموعة CLEVR (johnson2017clevr) طيفًا من القدرات الاستدلالية البصرية. وتتركز أسئلة CLEVR على المقارنات بين الأشكال والألوان والأحجام، والتفكير العددي، والادعاءات المتعلقة بالوجود. تقدم هذه الورقة مجموعة بيانات للإجابة على الأسئلة البصرية تشخيصية وتحوي أقل قدر ممكن من التحيز، تُسمى QLEVR، والتي تتجاوز القياسات الوجودية والعددية لتركز على كمّيات أكثر تعقيدًا وتركيباتها، مثل سؤال ما إذا كان هناك أكثر من كرتين أحمرَين أصغر من ثلاثة كرات زرقاء على الأقل في صورة معينة. ونُقدّم شرحًا لكيفية إنشاء هذه المجموعة، ونُقدّم تقييمًا أوليًا لنماذج الإجابة على الأسئلة البصرية الأحدث، مما يُظهر أن QLEVR تمثل تحديًا جوهريًا للنماذج الحالية. يمكن الوصول إلى الكود والبيانات من خلال الرابط: https://github.com/zechenli03/QLEVR