HyperAI

مجموعة بيانات أزواج الصور والنصوص COYO-700M

التاريخ

منذ عام واحد

الحجم

104.46 GB

المؤسسة

رابط النشر

github.com

特色图像

COYO-700M عبارة عن مجموعة بيانات كبيرة تحتوي على 747 مليون زوج من الصور والنصوص بالإضافة إلى العديد من السمات الوصفية الأخرى لتحسين قابلية الاستخدام لتدريب النماذج المختلفة. تتبع مجموعة البيانات هذه استراتيجية مماثلة لمجموعات البيانات السابقة الخاصة بالرؤية واللغة، حيث تقوم بجمع العديد من أزواج النصوص البديلة المفيدة في مستندات HTML والصور المرتبطة بها.

عملية جمع البيانات

من أكتوبر 2020 إلى أغسطس 2021، جمع فريق البحث ما يقرب من 10 مليارات زوج من مصادر النصوص والصور البديلة في مستندات HTML في CommonCrawl وقاموا بإزالة الأزواج غير المفيدة بأقل تكلفة من خلال عملية تصفية على مستوى الصورة والنص. يوضح الشكل عملية جمع البيانات التي قام بها فريق البحث.

coyo-700m.torrent
البذر 1التنزيل 1مكتمل 82إجمالي التنزيلات 155
  • coyo-700m/
    • README.md
      1.32 KB
    • README.txt
      2.63 KB
      • data/
        • coyo-700m.zip
          104.46 GB