HyperAIHyperAI

Command Palette

Search for a command to run...

Console

Ensemble De Données De Paires image-texte COYO-700M

Date

il y a 2 ans

Taille

104.46 GB

Organisation

URL de publication

github.com

Featured Image

COYO-700M est un grand ensemble de données contenant 747 millions de paires image-texte ainsi que de nombreux autres méta-attributs pour améliorer la convivialité pour la formation de divers modèles. Cet ensemble de données suit une stratégie similaire à celle des ensembles de données de vision et de langage précédents, en collectant de nombreuses paires de textes alternatifs informatifs dans des documents HTML et leurs images associées.

Processus de collecte de données

D'octobre 2020 à août 2021, l'équipe de recherche a collecté environ 10 milliards de paires de sources alternatives de texte et d'image dans des documents HTML dans CommonCrawl et a éliminé les paires non informatives avec un coût minimal grâce à un processus de filtrage aux niveaux de l'image et du texte. La figure décrit le processus de collecte de données de l’équipe de recherche.

coyo-700m.torrent
Seeding 1Téléchargement 0Terminé 154Téléchargements totaux 350
  • coyo-700m/
    • README.md
      1.32 KB
    • README.txt
      2.63 KB
      • data/
        • coyo-700m.zip
          104.46 GB

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec co-codage IA gratuit, environnement prêt à l'emploi et meilleur prix de GPU.

Co-codage avec IA
GPU prêts à l'emploi
Meilleurs prix

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp