Command Palette
Search for a command to run...
مجموعة بيانات معيارية للإجابة على الأسئلة المرئية COREVQA
COREVQA هي مجموعة بيانات مرجعية للإجابة على الأسئلة المرئية أصدرها مركز أبحاث الذكاء الاصطناعي Algoverse في عام 2025. نتائج الورقة ذات الصلة هي COREVQA: معيار للإجابة على الأسئلة البصرية باستخدام الملاحظة الجماعية والاستدلال المنطقي، والذي يهدف إلى تقييم قدرة الاستدلال المنطقي لنماذج اللغة البصرية (VLMs) في مشاهد الحشود.
تحتوي هذه المجموعة من البيانات على 5,608 أزواج من الصور وجمل الصواب والخطأ. الصور مستمدة من مجموعة بيانات CrowdHuman. تُصوّر البيانات بشكل أساسي مشاهد ازدحام واقعية، مع التركيز على تحديات مثل الانسداد، وتغييرات المنظور، وتداخل الخلفية. تهدف هذه البيانات إلى تطوير قدرات الإدراك والاستدلال الدقيقة لدى الروبوتات البصرية في المواقف الاجتماعية المعقدة.
تتضمن البيانات ما يلي:
- صورة المشهد (image_id)
- بيان اللغة الطبيعية (السؤال)
- العلامة الثنائية (الإجابة: صحيح / خطأ)
Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.