Datensatz Mit Konzeptionellen Bildunterschriften (CC12M)
Datum
Veröffentlichungs-URL
Tags
Kategorien

Der Datensatz wurde 2018 von Google veröffentlicht und umfasst 3,3 Millionen Bildunterschriftenpaare. Das Team hat eine automatisierte Pipeline erstellt, um aus Milliarden von Webseiten mögliche Bild- und Textpaare zu extrahieren, zu filtern und zu verarbeiten.
Der Datensatz ist in Trainings-, Validierungs- und Testsätze unterteilt. Der Trainingssatz besteht aus 3.318.333 Bild-URL/Titel-Paaren und die Gesamtzahl der Tokentypen (d. h. Vokabeln) im Titel beträgt 51.201. Jeder Titel enthält durchschnittlich 10,3 Token und der Validierungssatz besteht aus 15.840 Bild-URL/Titel-Paaren.
Darüber hinaus stellte das Team maschinengenerierte Bildbeschriftungen für 2.007.528 Bild-URL/Titel-Paare im Trainingssatz bereit.
Verwandte Artikel: