مجموعة بيانات أزواج الصور والنصوص COYO-700M
التاريخ
منذ عام واحد
الحجم
104.46 GB
رابط النشر
العلامات

COYO-700M عبارة عن مجموعة بيانات كبيرة تحتوي على 747 مليون زوج من الصور والنصوص بالإضافة إلى العديد من السمات الوصفية الأخرى لتحسين قابلية الاستخدام لتدريب النماذج المختلفة. تتبع مجموعة البيانات هذه استراتيجية مماثلة لمجموعات البيانات السابقة الخاصة بالرؤية واللغة، حيث تقوم بجمع العديد من أزواج النصوص البديلة المفيدة في مستندات HTML والصور المرتبطة بها.
عملية جمع البيانات
من أكتوبر 2020 إلى أغسطس 2021، جمع فريق البحث ما يقرب من 10 مليارات زوج من مصادر النصوص والصور البديلة في مستندات HTML في CommonCrawl وقاموا بإزالة الأزواج غير المفيدة بأقل تكلفة من خلال عملية تصفية على مستوى الصورة والنص. يوضح الشكل عملية جمع البيانات التي قام بها فريق البحث.
coyo-700m.torrent
البذر 1التنزيل 1مكتمل 82إجمالي التنزيلات 155