PD12M 大規模画像テキストデータセット

日期

1 个月前

大小

34.77 GB

机构

发布地址

source.plus

Public Domain 12M (略称 PD12M) は、2024 年に Spawning によって作成された大規模な画像テキスト データ セットです。これには 1,240 万枚の高品質のパブリック ドメインおよび CC0 ライセンスの画像が含まれており、これらの画像は合成字幕とペアになっており、主に用途に使用されます。テキストから画像へのモデルのトレーニング。 PD12M は現在最大のパブリック ドメインの画像テキスト データ セットであり、その大規模かつ明確な著作権記述により、著作権に関する懸念を最小限に抑えながら、AI モデルのトレーニングに強固な基盤を提供します。関連する論文結果は「パブリック ドメイン 12M: 斬新なガバナンス メカニズムを備えた非常に美しい画像テキスト データセット”。

PD12M のデータ ソースには、ギャラリー、図書館、アーカイブ、博物館 (GLAM)、ウィキメディア コモンズが含まれており、慎重な審査と管理を通じて、データの品質とセキュリティが保証されています。データセットの構築プロセスには、画像収集、著作権検証、画像ダウンロード、コンテンツ フィルタリングから字幕生成までの複数のステップが含まれます。 PD12M は、Source.Plus プラットフォームを通じてコミュニティ主導のデータ ガバナンス メカニズムも導入し、データ セットの継続的な改善と保守をサポートします。

さらに、PD12M には幅広いアプリケーションがあり、主にテキストから画像への生成モデルのトレーニングと評価に使用され、コンピューター ビジョンと自然言語処理の分野の進歩を目指しています。このデータセットは、AI 分野に豊富なトレーニング リソースを提供するだけでなく、責任ある AI 実践の例を提供し、公共の AI リソースの保護と利用を促進します。

PD12M.torrent

做种 1

下载中 0

已完成 6

总下载 16

  • PD12M/
    • README.md
      2.02 KB
    • README.txt
      4.05 KB
      • data/
        • PD12M.zip
          34.77 GB