مجموعة بيانات أزواج الصور والنصوص CC12M
التاريخ
منذ 3 أعوام
رابط النشر
الترخيص
其他
العلامات
الفئات

CC12M (Conceptual 12M) عبارة عن مجموعة بيانات من أزواج الصور والنصوص المصممة خصيصًا للتدريب المسبق على الرؤية واللغة. تحتوي مجموعة البيانات على 12 مليون زوج من الصور والنصوص. بالمقارنة مع CC3M، فإن مجموعة البيانات هذه تعمل بشكل أفضل في التعرف البصري الطويل للمهام المتعددة اللاحقة.