Command Palette

Search for a command to run...

PD12M 大規模画像テキストデータセット

日付

1年前

サイズ

34.77 GB

組織

公開URL

source.plus

論文URL

arxiv.org

Public Domain 12M (略称 PD12M) は、2024 年に Spawning によって作成された大規模な画像テキスト データ セットです。これには 1,240 万枚の高品質のパブリック ドメインおよび CC0 ライセンスの画像が含まれており、これらの画像は合成字幕とペアになっており、主に用途に使用されます。テキストから画像へのモデルのトレーニング。 PD12M は現在最大のパブリック ドメインの画像テキスト データ セットであり、その大規模かつ明確な著作権記述により、著作権に関する懸念を最小限に抑えながら、AI モデルのトレーニングに強固な基盤を提供します。関連する論文結果は「パブリック ドメイン 12M: 斬新なガバナンス メカニズムを備えた非常に美しい画像テキスト データセット”。

PD12M のデータ ソースには、ギャラリー、図書館、アーカイブ、博物館 (GLAM)、ウィキメディア コモンズが含まれており、慎重な審査と管理を通じて、データの品質とセキュリティが保証されています。データセットの構築プロセスには、画像収集、著作権検証、画像ダウンロード、コンテンツ フィルタリングから字幕生成までの複数のステップが含まれます。 PD12M は、Source.Plus プラットフォームを通じてコミュニティ主導のデータ ガバナンス メカニズムも導入し、データ セットの継続的な改善と保守をサポートします。

さらに、PD12M には幅広いアプリケーションがあり、主にテキストから画像への生成モデルのトレーニングと評価に使用され、コンピューター ビジョンと自然言語処理の分野の進歩を目指しています。このデータセットは、AI 分野に豊富なトレーニング リソースを提供するだけでなく、責任ある AI 実践の例を提供し、公共の AI リソースの保護と利用を促進します。

PD12M.torrent
シーディング 1ダウンロード中 0ダウンロード完了 130総ダウンロード数 188
  • PD12M/
    • README.md
      2.02 KB
    • README.txt
      4.05 KB
      • data/
        • PD12M.zip
          34.77 GB

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
PD12M 大規模画像テキストデータセット | データセット | HyperAI超神経