Public Domain 12M (略称 PD12M) は、2024 年に Spawning によって作成された大規模な画像テキスト データ セットです。これには 1,240 万枚の高品質のパブリック ドメインおよび CC0 ライセンスの画像が含まれており、これらの画像は合成字幕とペアになっており、主に用途に使用されます。テキストから画像へのモデルのトレーニング。 PD12M は現在最大のパブリック ドメインの画像テキスト データ セットであり、その大規模かつ明確な著作権記述により、著作権に関する懸念を最小限に抑えながら、AI モデルのトレーニングに強固な基盤を提供します。関連する論文結果は「パブリック ドメイン 12M: 斬新なガバナンス メカニズムを備えた非常に美しい画像テキスト データセット”。
PD12M のデータ ソースには、ギャラリー、図書館、アーカイブ、博物館 (GLAM)、ウィキメディア コモンズが含まれており、慎重な審査と管理を通じて、データの品質とセキュリティが保証されています。データセットの構築プロセスには、画像収集、著作権検証、画像ダウンロード、コンテンツ フィルタリングから字幕生成までの複数のステップが含まれます。 PD12M は、Source.Plus プラットフォームを通じてコミュニティ主導のデータ ガバナンス メカニズムも導入し、データ セットの継続的な改善と保守をサポートします。
さらに、PD12M には幅広いアプリケーションがあり、主にテキストから画像への生成モデルのトレーニングと評価に使用され、コンピューター ビジョンと自然言語処理の分野の進歩を目指しています。このデータセットは、AI 分野に豊富なトレーニング リソースを提供するだけでなく、責任ある AI 実践の例を提供し、公共の AI リソースの保護と利用を促進します。
做种 1
下载中 0
已完成 6
总下载 16