HyperAI

Datensatz Mit Konzeptionellen Bildunterschriften (CC12M)

Datum

vor 4 Jahren

Organisation

Google

Veröffentlichungs-URL

ai.google.com

Kategorien

Download-Hilfe
特色图像

Der Datensatz wurde 2018 von Google veröffentlicht und umfasst 3,3 Millionen Bildunterschriftenpaare. Das Team hat eine automatisierte Pipeline erstellt, um aus Milliarden von Webseiten mögliche Bild- und Textpaare zu extrahieren, zu filtern und zu verarbeiten.

Der Datensatz ist in Trainings-, Validierungs- und Testsätze unterteilt. Der Trainingssatz besteht aus 3.318.333 Bild-URL/Titel-Paaren und die Gesamtzahl der Tokentypen (d. h. Vokabeln) im Titel beträgt 51.201. Jeder Titel enthält durchschnittlich 10,3 Token und der Validierungssatz besteht aus 15.840 Bild-URL/Titel-Paaren.

Darüber hinaus stellte das Team maschinengenerierte Bildbeschriftungen für 2.007.528 Bild-URL/Titel-Paare im Trainingssatz bereit.

Verwandte Artikel:

Konzeptuelle Bildunterschriften: Ein bereinigter, hypernymisierter Bild-Alttext-Datensatz für die automatische Bildunterschrift