Ensemble De Données Image-texte À Grande Échelle PD12M
Date
Taille
URL de publication
Public Domain 12M (PD12M en abrégé) est un ensemble de données image-texte à grande échelle créé par Spawning en 2024. Il contient 12,4 millions d'images de haute qualité sous licence du domaine public et CC0 avec des légendes synthétiques, qui sont principalement utilisées pour former des modèles texte-image. PD12M est actuellement le plus grand ensemble de données d'images et de textes du domaine public. Grâce à son ampleur considérable et à ses déclarations de droits d’auteur claires, il fournit une base solide pour la formation des modèles d’IA tout en minimisant les problèmes de droits d’auteur. Les résultats pertinents de l'article sontDomaine public 12M : un ensemble de données image-texte hautement esthétique avec de nouveaux mécanismes de gouvernance".
Les sources de données de PD12M comprennent des galeries, des bibliothèques, des archives, des musées (GLAM) et Wikimedia Commons, et la qualité et la sécurité des données sont assurées par un examen et une gouvernance minutieux. Le processus de construction de l'ensemble de données couvre plusieurs étapes allant de la collecte d'images, de la vérification des droits d'auteur, du téléchargement d'images, du filtrage du contenu à la génération de légendes. PD12M a également introduit un mécanisme de gouvernance des données axé sur la communauté via la plateforme Source.Plus pour soutenir l'amélioration continue et la maintenance de l'ensemble de données.
De plus, PD12M dispose d'une large gamme d'applications, principalement utilisées pour former et évaluer des modèles de génération de texte en image, visant à promouvoir le développement de la vision par ordinateur et du traitement du langage naturel. Cet ensemble de données fournit non seulement de riches ressources de formation pour le domaine de l'IA, mais constitue également un exemple de pratiques d'IA responsables et favorise la protection et l'utilisation des ressources publiques d'IA.
