CLEVR-X: مجموعة بيانات استدلال بصري للشروحات باللغة الطبيعية

تُشكّل إعطاء تفسيرات في سياق الإجابة على الأسئلة البصرية (VQA) مشكلة جوهرية في تعلم الآلة. وللحصول على رؤى مفصلة حول عملية إنشاء تفسيرات بلغة طبيعية لـ VQA، نقدّم مجموعة البيانات الكبيرة CLEVR-X، التي تم توسيعها من مجموعة بيانات CLEVR بإضافة تفسيرات بلغة طبيعية. لكل زوج صورة-سؤال في مجموعة بيانات CLEVR، تحتوي CLEVR-X على عدة تفسيرات نصية منظمة، مستمدة من الرسوم البيانية الأصلية للمشاهد. وبطريقة البناء، تكون تفسيرات CLEVR-X صحيحة، وتحدد الاستدلالات والمعلومات البصرية الضرورية للإجابة على سؤال معين. أجرينا دراسة مستخدمين للتأكد من أن التفسيرات الحقيقية (ground-truth) في مجموعة البيانات التي اقترحناها هي في الواقع كاملة وذات صلة. ونقدّم نتائج أساسية لإنجاز توليد تفسيرات بلغة طبيعية في سياق VQA باستخدام إطارين حديثين متقدّمين على مجموعة بيانات CLEVR-X. علاوة على ذلك، نقدّم تحليلًا مفصّلًا لجودة توليد التفسيرات حسب أنواع الأسئلة والإجابات المختلفة. كما ندرس تأثير استخدام أعداد مختلفة من التفسيرات الحقيقية على معدلات التقارب في مقاييس توليد اللغة الطبيعية (NLG). تتوفر مجموعة بيانات CLEVR-X للعامة عبر الرابط: \url{https://explainableml.github.io/CLEVR-X/}.