Public Domain 12M(简称 PD12M)是由 Spawning 于 2024 年创建的一个大规模图像-文本数据集,它包含了 1240 万张高质量的公共领域及 CC0 许可图片,这些图片搭配了合成字幕,主要用于训练文本到图像的模型。 PD12M 是目前最大的公共领域图像-文本数据集,以其庞大的规模和明确的版权声明,为 AI 模型的训练提供了坚实的基础,同时最小化了版权担忧。相关论文成果为「Public Domain 12M: A Highly Aesthetic Image-Text Dataset with Novel Governance Mechanisms」。
PD12M 的数据来源包括画廊、图书馆、档案馆、博物馆 (GLAM) 以及 Wikimedia Commons 等,通过精心筛选和治理,确保了数据的质量和安全性。数据集的构建过程涵盖了从图像收集、版权验证、图像下载、内容过滤到字幕生成等多个步骤。 PD12M 还通过 Source.Plus 平台引入了社区驱动的数据治理机制,以支持数据集的持续改进和维护。
此外,PD12M 的应用领域广泛,主要用于训练和评估文本到图像生成模型,旨在推动计算机视觉和自然语言处理领域的发展。该数据集不仅为 AI 领域提供了丰富的训练资源,也为负责任的 AI 实践提供了范例,促进了公共 AI 资源的保护和利用
做种 1
下载中 0
已完成 6
总下载 16