HyperAIHyperAI

Command Palette

Search for a command to run...

Datensatz Mit Konzeptionellen Bildunterschriften (CC12M)

Datum

vor 5 Jahren

Organisation

Google

Veröffentlichungs-URL

ai.google.com

Featured Image

Der Datensatz wurde 2018 von Google veröffentlicht und umfasst 3,3 Millionen Bildunterschriftenpaare. Das Team hat eine automatisierte Pipeline erstellt, um aus Milliarden von Webseiten mögliche Bild- und Textpaare zu extrahieren, zu filtern und zu verarbeiten.

Der Datensatz ist in Trainings-, Validierungs- und Testsätze unterteilt. Der Trainingssatz besteht aus 3.318.333 Bild-URL/Titel-Paaren und die Gesamtzahl der Tokentypen (d. h. Vokabeln) im Titel beträgt 51.201. Jeder Titel enthält durchschnittlich 10,3 Token und der Validierungssatz besteht aus 15.840 Bild-URL/Titel-Paaren.

Darüber hinaus stellte das Team maschinengenerierte Bildbeschriftungen für 2.007.528 Bild-URL/Titel-Paare im Trainingssatz bereit.

Verwandte Artikel:

Konzeptuelle Bildunterschriften: Ein bereinigter, hypernymisierter Bild-Alttext-Datensatz für die automatische Bildunterschrift

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp