HyperAI

مجموعة بيانات فهم مرجع كائن Cops-Ref

التاريخ

منذ 2 أعوام

المؤسسة

جامعة هونغ كونغ

رابط النشر

github.com

الترخيص

其他

مساعدة التنزيل
特色图像

Cops-Ref تعني فهم التعبير المرجعي التكويني، وهي مجموعة بيانات صور التفكير البصري حول فهم مرجع الكائن المستهدف. تحتوي مجموعة البيانات على 75,299 صورة حقيقية، و148,712 وصفًا نصيًا، و1,307,885 منطقة مرشحة.

تحتوي مجموعة البيانات هذه على ميزتين رئيسيتين. الأول هو محرك توليد نص جديد يمكنه الجمع بين المنطق الاستدلالي والميزات المرئية لتوليد أوصاف نصية بدرجات متفاوتة من التعقيد. الإعداد الآخر هو إعداد اختبار جديد يتداخل مع الصور المرئية المتشابهة دلاليًا أثناء الاختبار.