HyperAIHyperAI

مجموعة بيانات معيارية للإجابة على الأسئلة المرئية COREVQA

التاريخ

منذ شهر واحد

الحجم

5.63 GB

رابط النشر

www.kaggle.com

رابط الورقة البحثية

2507.13405

الترخيص

Apache 2.0

COREVQA هي مجموعة بيانات مرجعية للإجابة على الأسئلة المرئية أصدرها مركز أبحاث الذكاء الاصطناعي Algoverse في عام 2025. نتائج الورقة ذات الصلة هي COREVQA: معيار للإجابة على الأسئلة البصرية باستخدام الملاحظة الجماعية والاستدلال المنطقي، والذي يهدف إلى تقييم قدرة الاستدلال المنطقي لنماذج اللغة البصرية (VLMs) في مشاهد الحشود.

تحتوي هذه المجموعة من البيانات على 5,608 أزواج من الصور وجمل الصواب والخطأ. الصور مستمدة من مجموعة بيانات CrowdHuman. تُصوّر البيانات بشكل أساسي مشاهد ازدحام واقعية، مع التركيز على تحديات مثل الانسداد، وتغييرات المنظور، وتداخل الخلفية. تهدف هذه البيانات إلى تطوير قدرات الإدراك والاستدلال الدقيقة لدى الروبوتات البصرية في المواقف الاجتماعية المعقدة.

تتضمن البيانات ما يلي:

  • صورة المشهد (image_id)
  • بيان اللغة الطبيعية (السؤال)
  • العلامة الثنائية (الإجابة: صحيح / خطأ)

كوريفكا.torrent
البذر 1التنزيل 0مكتمل 6إجمالي التنزيلات 34
  • COREVQA/
    • README.md
      1.42 KB
    • README.txt
      2.85 KB
      • data/
        • COREVQA.zip
          5.63 GB