HyperAI

Ensemble De Données De Paires Image-texte COYO-700M

Date

il y a un an

Taille

104.46 GB

Organisation

URL de publication

github.com

特色图像

COYO-700M est un grand ensemble de données contenant 747 millions de paires image-texte ainsi que de nombreux autres méta-attributs pour améliorer la convivialité pour la formation de divers modèles. Cet ensemble de données suit une stratégie similaire à celle des ensembles de données de vision et de langage précédents, en collectant de nombreuses paires de textes alternatifs informatifs dans des documents HTML et leurs images associées.

Processus de collecte de données

D'octobre 2020 à août 2021, l'équipe de recherche a collecté environ 10 milliards de paires de sources alternatives de texte et d'image dans des documents HTML dans CommonCrawl et a éliminé les paires non informatives avec un coût minimal grâce à un processus de filtrage aux niveaux de l'image et du texte. La figure décrit le processus de collecte de données de l’équipe de recherche.

coyo-700m.torrent
Partage 1Téléchargement 1Terminés 82Téléchargements totaux 155
  • coyo-700m/
    • README.md
      1.32 KB
    • README.txt
      2.63 KB
      • data/
        • coyo-700m.zip
          104.46 GB