HyperAIHyperAI

Command Palette

Search for a command to run...

PD12M Großer Bild-Text-Datensatz

Date

vor einem Jahr

Size

34.77 GB

Organization

Publish URL

source.plus

Paper URL

arxiv.org

Public Domain 12M (kurz PD12M) ist ein umfangreicher Bild-Text-Datensatz, der 2024 von Spawning erstellt wurde. Er enthält 12,4 Millionen hochwertige, gemeinfreie und unter CC0 lizenzierte Bilder mit synthetischen Bildunterschriften, die hauptsächlich zum Trainieren von Text-zu-Bild-Modellen verwendet werden. PD12M ist derzeit der größte gemeinfreie Bild-Text-Datensatz. Mit seinem enormen Umfang und den klaren Urheberrechtserklärungen bietet es eine solide Grundlage für das Training von KI-Modellen und minimiert gleichzeitig Urheberrechtsbedenken. Die relevanten Papierergebnisse sindPublic Domain 12M: Ein hochästhetischer Bild-Text-Datensatz mit neuartigen Governance-Mechanismen".

Zu den Datenquellen von PD12M gehören Galerien, Bibliotheken, Archive, Museen (GLAM) und Wikimedia Commons. Die Qualität und Sicherheit der Daten werden durch sorgfältige Prüfung und Verwaltung gewährleistet. Der Prozess der Datensatzerstellung umfasst mehrere Schritte, von der Bildsammlung, Urheberrechtsprüfung, dem Bilddownload, der Inhaltsfilterung bis hin zur Untertitelgenerierung. PD12M hat außerdem über die Source.Plus-Plattform einen Community-gesteuerten Datenverwaltungsmechanismus eingeführt, um die kontinuierliche Verbesserung und Wartung des Datensatzes zu unterstützen.

Darüber hinaus verfügt PD12M über ein breites Anwendungsspektrum, das hauptsächlich zum Trainieren und Bewerten von Text-zu-Bild-Generierungsmodellen verwendet wird, mit dem Ziel, die Entwicklung der Computervision und der Verarbeitung natürlicher Sprache zu fördern. Dieser Datensatz bietet nicht nur umfangreiche Schulungsressourcen für den KI-Bereich, sondern ist auch ein Beispiel für verantwortungsvolle KI-Praktiken und fördert den Schutz und die Nutzung öffentlicher KI-Ressourcen.

PD12M.torrent
Seeding 1Downloading 0Completed 150Total Downloads 238
  • PD12M/
    • README.md
      2.02 KB
    • README.txt
      4.05 KB
      • data/
        • PD12M.zip
          34.77 GB

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
PD12M Großer Bild-Text-Datensatz | Datasets | HyperAI