مجموعة بيانات معيارية للإجابة على الأسئلة المرئية COREVQA
التاريخ
الحجم
رابط النشر
رابط الورقة البحثية
الترخيص
Apache 2.0
COREVQA هي مجموعة بيانات مرجعية للإجابة على الأسئلة المرئية أصدرها مركز أبحاث الذكاء الاصطناعي Algoverse في عام 2025. نتائج الورقة ذات الصلة هي COREVQA: معيار للإجابة على الأسئلة البصرية باستخدام الملاحظة الجماعية والاستدلال المنطقي، والذي يهدف إلى تقييم قدرة الاستدلال المنطقي لنماذج اللغة البصرية (VLMs) في مشاهد الحشود.
تحتوي هذه المجموعة من البيانات على 5,608 أزواج من الصور وجمل الصواب والخطأ. الصور مستمدة من مجموعة بيانات CrowdHuman. تُصوّر البيانات بشكل أساسي مشاهد ازدحام واقعية، مع التركيز على تحديات مثل الانسداد، وتغييرات المنظور، وتداخل الخلفية. تهدف هذه البيانات إلى تطوير قدرات الإدراك والاستدلال الدقيقة لدى الروبوتات البصرية في المواقف الاجتماعية المعقدة.
تتضمن البيانات ما يلي:
- صورة المشهد (image_id)
- بيان اللغة الطبيعية (السؤال)
- العلامة الثنائية (الإجابة: صحيح / خطأ)