HyperAI

مجموعة بيانات التعليقات المفاهيمية (CC12M)

التاريخ

منذ 4 أعوام

المؤسسة

جوجل

رابط النشر

ai.google.com

مساعدة التنزيل
特色图像

تم إصدار مجموعة البيانات بواسطة Google في عام 2018 وتتضمن 3.3 مليون زوج من تعليقات الصور. أنشأ الفريق خط أنابيب آليًا لاستخراج وتصفية ومعالجة أزواج الصور والنصوص المرشحة من مليارات صفحات الويب.

تنقسم مجموعة البيانات إلى مجموعات التدريب والتحقق والاختبار. تتكون مجموعة التدريب من 3,318,333 زوجًا من عناوين URL للصور، ويبلغ العدد الإجمالي لأنواع الرموز (أي المفردات) في العنوان 51,201. يحتوي كل عنوان على 10.3 رمزًا في المتوسط، وتتكون مجموعة التحقق من 15,840 زوجًا من عناوين URL/الصور.

بالإضافة إلى ذلك، قدم الفريق تسميات صور تم إنشاؤها آليًا لـ 2,007,528 زوجًا من عناوين URL/الصور في مجموعة التدريب.

أوراق ذات صلة:

التسميات التوضيحية المفاهيمية: مجموعة بيانات نصية بديلة مُنظّفة ومُسمّاة بشكل مفرط للتسميات التوضيحية التلقائية للصور