WIT-Bild-Text-Datensatz
Datum
vor 3 Jahren
Größe
25.2 GB
Veröffentlichungs-URL
Paper-URL
Lizenz
Andere

WIT steht für Wikipedia-based Image Text, einen großen multimodalen und mehrsprachigen Datensatz. Der Datensatz besteht aus einer kuratierten Sammlung von 37,6 Millionen mit Entitäten angereicherten Bild-Text-Beispielen, die 11,5 Millionen einzigartige Bilder in 108 Wikipedia-Sprachen enthalten. Aufgrund seiner Größe eignet sich dieser Datensatz zur Verwendung als Vortrainingsdatensatz für multimodale Modelle des maschinellen Lernens.
WIT bietet vier einzigartige Vorteile:
- WIT ist der größte multimodale Datensatz im Hinblick auf die Anzahl der Bild-Text-Beispiele.
- Es werden über 100 Sprachen abgedeckt (mit mindestens 12.000 Beispielen pro Sprache) und für viele Bilder wird ein sprachübergreifender Text bereitgestellt.
- Im Vergleich zu früheren Datensätzen stellt WIT einen vielfältigeren Satz von Konzepten und realen Entitäten dar.
- WIT bietet einen sehr anspruchsvollen Testsatz für die reale Welt.
WIT.torrent
Seeding 1Herunterladen 1Abgeschlossen 570Gesamtdownloads 736
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.
KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Hyper Newsletters
Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp