PD12M Großer Bild-Text-Datensatz
Datum
Größe
Veröffentlichungs-URL
Kategorien
Public Domain 12M (kurz PD12M) ist ein umfangreicher Bild-Text-Datensatz, der 2024 von Spawning erstellt wurde. Er enthält 12,4 Millionen hochwertige, gemeinfreie und unter CC0 lizenzierte Bilder mit synthetischen Bildunterschriften, die hauptsächlich zum Trainieren von Text-zu-Bild-Modellen verwendet werden. PD12M ist derzeit der größte gemeinfreie Bild-Text-Datensatz. Mit seinem enormen Umfang und den klaren Urheberrechtserklärungen bietet es eine solide Grundlage für das Training von KI-Modellen und minimiert gleichzeitig Urheberrechtsbedenken. Die relevanten Papierergebnisse sindPublic Domain 12M: Ein hochästhetischer Bild-Text-Datensatz mit neuartigen Governance-Mechanismen".
Zu den Datenquellen von PD12M gehören Galerien, Bibliotheken, Archive, Museen (GLAM) und Wikimedia Commons. Die Qualität und Sicherheit der Daten werden durch sorgfältige Prüfung und Verwaltung gewährleistet. Der Prozess der Datensatzerstellung umfasst mehrere Schritte, von der Bildsammlung, Urheberrechtsprüfung, dem Bilddownload, der Inhaltsfilterung bis hin zur Untertitelgenerierung. PD12M hat außerdem über die Source.Plus-Plattform einen Community-gesteuerten Datenverwaltungsmechanismus eingeführt, um die kontinuierliche Verbesserung und Wartung des Datensatzes zu unterstützen.
Darüber hinaus verfügt PD12M über ein breites Anwendungsspektrum, das hauptsächlich zum Trainieren und Bewerten von Text-zu-Bild-Generierungsmodellen verwendet wird, mit dem Ziel, die Entwicklung der Computervision und der Verarbeitung natürlicher Sprache zu fördern. Dieser Datensatz bietet nicht nur umfangreiche Schulungsressourcen für den KI-Bereich, sondern ist auch ein Beispiel für verantwortungsvolle KI-Praktiken und fördert den Schutz und die Nutzung öffentlicher KI-Ressourcen.
