Command Palette
Search for a command to run...
WIT-Bild-Text-Datensatz
Datum
Größe
Veröffentlichungs-URL
Paper-URL
Lizenz
Other

WIT steht für Wikipedia-based Image Text, einen großen multimodalen und mehrsprachigen Datensatz. Der Datensatz besteht aus einer kuratierten Sammlung von 37,6 Millionen mit Entitäten angereicherten Bild-Text-Beispielen, die 11,5 Millionen einzigartige Bilder in 108 Wikipedia-Sprachen enthalten. Aufgrund seiner Größe eignet sich dieser Datensatz zur Verwendung als Vortrainingsdatensatz für multimodale Modelle des maschinellen Lernens.
WIT bietet vier einzigartige Vorteile:
- WIT ist der größte multimodale Datensatz im Hinblick auf die Anzahl der Bild-Text-Beispiele.
- Es werden über 100 Sprachen abgedeckt (mit mindestens 12.000 Beispielen pro Sprache) und für viele Bilder wird ein sprachübergreifender Text bereitgestellt.
- Im Vergleich zu früheren Datensätzen stellt WIT einen vielfältigeren Satz von Konzepten und realen Entitäten dar.
- WIT bietet einen sehr anspruchsvollen Testsatz für die reale Welt.
KI mit KI entwickeln
Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.