Command Palette
Search for a command to run...
مجموعة بيانات التعليقات المفاهيمية (CC12M)
التاريخ
عنوان URL للنشر
رابط الورقة البحثية
الوسوم

تم إصدار مجموعة البيانات بواسطة Google في عام 2018 وتتضمن 3.3 مليون زوج من تعليقات الصور. أنشأ الفريق خط أنابيب آليًا لاستخراج وتصفية ومعالجة أزواج الصور والنصوص المرشحة من مليارات صفحات الويب.
تنقسم مجموعة البيانات إلى مجموعات التدريب والتحقق والاختبار. تتكون مجموعة التدريب من 3,318,333 زوجًا من عناوين URL للصور، ويبلغ العدد الإجمالي لأنواع الرموز (أي المفردات) في العنوان 51,201. يحتوي كل عنوان على 10.3 رمزًا في المتوسط، وتتكون مجموعة التحقق من 15,840 زوجًا من عناوين URL/الصور.
بالإضافة إلى ذلك، قدم الفريق تسميات صور تم إنشاؤها آليًا لـ 2,007,528 زوجًا من عناوين URL/الصور في مجموعة التدريب.
أوراق ذات صلة:
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.