Ensemble De Données De Paires Image-texte COYO-700M
Date
Taille
URL de publication

COYO-700M est un grand ensemble de données contenant 747 millions de paires image-texte ainsi que de nombreux autres méta-attributs pour améliorer la convivialité pour la formation de divers modèles. Cet ensemble de données suit une stratégie similaire à celle des ensembles de données de vision et de langage précédents, en collectant de nombreuses paires de textes alternatifs informatifs dans des documents HTML et leurs images associées.
Processus de collecte de données
D'octobre 2020 à août 2021, l'équipe de recherche a collecté environ 10 milliards de paires de sources alternatives de texte et d'image dans des documents HTML dans CommonCrawl et a éliminé les paires non informatives avec un coût minimal grâce à un processus de filtrage aux niveaux de l'image et du texte. La figure décrit le processus de collecte de données de l’équipe de recherche.