HyperAIHyperAI

Command Palette

Search for a command to run...

Ensemble De Données image-texte À Grande Échelle PD12M

Date

il y a un an

Size

34.77 GB

Organization

Publish URL

source.plus

Paper URL

arxiv.org

Public Domain 12M (PD12M en abrégé) est un ensemble de données image-texte à grande échelle créé par Spawning en 2024. Il contient 12,4 millions d'images de haute qualité sous licence du domaine public et CC0 avec des légendes synthétiques, qui sont principalement utilisées pour former des modèles texte-image. PD12M est actuellement le plus grand ensemble de données d'images et de textes du domaine public. Grâce à son ampleur considérable et à ses déclarations de droits d’auteur claires, il fournit une base solide pour la formation des modèles d’IA tout en minimisant les problèmes de droits d’auteur. Les résultats pertinents de l'article sontDomaine public 12M : un ensemble de données image-texte hautement esthétique avec de nouveaux mécanismes de gouvernance".

Les sources de données de PD12M comprennent des galeries, des bibliothèques, des archives, des musées (GLAM) et Wikimedia Commons, et la qualité et la sécurité des données sont assurées par un examen et une gouvernance minutieux. Le processus de construction de l'ensemble de données couvre plusieurs étapes allant de la collecte d'images, de la vérification des droits d'auteur, du téléchargement d'images, du filtrage du contenu à la génération de légendes. PD12M a également introduit un mécanisme de gouvernance des données axé sur la communauté via la plateforme Source.Plus pour soutenir l'amélioration continue et la maintenance de l'ensemble de données.

De plus, PD12M dispose d'une large gamme d'applications, principalement utilisées pour former et évaluer des modèles de génération de texte en image, visant à promouvoir le développement de la vision par ordinateur et du traitement du langage naturel. Cet ensemble de données fournit non seulement de riches ressources de formation pour le domaine de l'IA, mais constitue également un exemple de pratiques d'IA responsables et favorise la protection et l'utilisation des ressources publiques d'IA.

PD12M.torrent
Seeding 1Downloading 0Completed 150Total Downloads 237
  • PD12M/
    • README.md
      2.02 KB
    • README.txt
      4.05 KB
      • data/
        • PD12M.zip
          34.77 GB

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Ensemble De Données image-texte À Grande Échelle PD12M | Datasets | HyperAI