مجموعة بيانات فهم صور المشهد VisualOverload
التاريخ
منذ 15 أيام
الحجم
601.3 MB
رابط النشر
الترخيص
CC BY-SA 4.0
VisualOverload عبارة عن مجموعة بيانات لتقييم فهم صور المشهد تهدف إلى فحص قدرة النموذج على الفهم البصري والتفكير في التفاصيل في المشاهد المعقدة دون الاعتماد على المعرفة الخارجية.
تحتوي هذه المجموعة من البيانات على 2720 زوجًا من الأسئلة والأجوبة، تتألف من لوحات فنية عالية الدقة، متاحة للعامة، غالبًا ما تتضمن شخصيات وأحداثًا وحبكات فرعية وخلفيات معقدة. صُممت الأسئلة يدويًا لاختبار فهم النموذج للمشهد بشكل شامل. تُعد هذه المجموعة مناسبة لأبحاث الإجابات البصرية، وفهم الصور وتفسيرها بشكل مفصل، وتقييم المشاهد المعقدة ذات الشخصيات والعناصر المتعددة.

التحميل البصري الزائد.torrent
البذر 1التنزيل 0مكتمل 1إجمالي التنزيلات 11