Datum

vor 4 Jahren

Größe

25.2 GB

Organisation

Veröffentlichungs-URL

github.com

Paper-URL

arxiv.org

Lizenz

Other

Tags

Multimodal

Natürliche Sprachverarbeitung

WIT steht für Wikipedia-based Image Text, einen großen multimodalen und mehrsprachigen Datensatz. Der Datensatz besteht aus einer kuratierten Sammlung von 37,6 Millionen mit Entitäten angereicherten Bild-Text-Beispielen, die 11,5 Millionen einzigartige Bilder in 108 Wikipedia-Sprachen enthalten. Aufgrund seiner Größe eignet sich dieser Datensatz zur Verwendung als Vortrainingsdatensatz für multimodale Modelle des maschinellen Lernens. WIT bietet vier einzigartige Vorteile:

WIT ist der größte multimodale Datensatz im Hinblick auf die Anzahl der Bild-Text-Beispiele.
Es werden über 100 Sprachen abgedeckt (mit mindestens 12.000 Beispielen pro Sprache) und für viele Bilder wird ein sprachübergreifender Text bereitgestellt.
Im Vergleich zu früheren Datensätzen stellt WIT einen vielfältigeren Satz von Konzepten und realen Entitäten dar.
WIT bietet einen sehr anspruchsvollen Testsatz für die reale Welt.

WIT.torrent

Seeding 1Wird heruntergeladen 0Abgeschlossen 611Gesamtdownloads 809

WIT/
- README.md
  1.41 KB
- README.txt
  2.82 KB

Dieser Datensatz wurde von Community-Nutzern beigesteuert und dient ausschließlich Bildungs- und Informationszwecken. Falls Inhalte eine Urheberrechtsverletzung darstellen, kontaktieren Sie uns bitte unter [email protected] zur umgehenden Prüfung und Entfernung.

Zugehörige Datensätze

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

Diesen Datensatz verwenden

Auf Discord diskutieren

Datum

vor 4 Jahren

Größe

25.2 GB

Organisation

Veröffentlichungs-URL

github.com

Paper-URL

arxiv.org

Lizenz

Other

Zugehörige Datensätze

DRACO Cross-Domain Deep Research Benchmark-Datensatz

vor 2 Monaten

Datensatz Zur Psychischen Gesundheit Und Zum Burnout Von Studierenden

vor 2 Monaten

Groundsource Global Flood Events Dataset

vor 3 Monaten

TransPhy3D Transparent Reflection Synthesis Video Dataset

vor 5 Monaten

GroundingME-Datensatz Zur Evaluierung Des Verständnisses Komplexer Szenen

vor 6 Monaten

MCIF Multimodal Cross-Language Instruction Following Dataset

vor 6 Monaten

MCD-rPPG Multi-Kamera-Fernphotoplethysmographie-Datensatz

vor 6 Monaten

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

WIT-Bild-Text-Datensatz

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

WIT-Bild-Text-Datensatz

Zugehörige Datensätze

DRACO Cross-Domain Deep Research Benchmark-Datensatz

Datensatz Zur Psychischen Gesundheit Und Zum Burnout Von Studierenden

Groundsource Global Flood Events Dataset

TransPhy3D Transparent Reflection Synthesis Video Dataset

GroundingME-Datensatz Zur Evaluierung Des Verständnisses Komplexer Szenen

MCIF Multimodal Cross-Language Instruction Following Dataset

MCD-rPPG Multi-Kamera-Fernphotoplethysmographie-Datensatz

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

WIT-Bild-Text-Datensatz

Zugehörige Datensätze

DRACO Cross-Domain Deep Research Benchmark-Datensatz

Datensatz Zur Psychischen Gesundheit Und Zum Burnout Von Studierenden

Groundsource Global Flood Events Dataset

TransPhy3D Transparent Reflection Synthesis Video Dataset

GroundingME-Datensatz Zur Evaluierung Des Verständnisses Komplexer Szenen

MCIF Multimodal Cross-Language Instruction Following Dataset

MCD-rPPG Multi-Kamera-Fernphotoplethysmographie-Datensatz

KI mit KI entwickeln

HyperAI Newsletters

Zugehörige Datensätze

DRACO Cross-Domain Deep Research Benchmark-Datensatz

Datensatz Zur Psychischen Gesundheit Und Zum Burnout Von Studierenden

Groundsource Global Flood Events Dataset

TransPhy3D Transparent Reflection Synthesis Video Dataset

GroundingME-Datensatz Zur Evaluierung Des Verständnisses Komplexer Szenen

MCIF Multimodal Cross-Language Instruction Following Dataset

MCD-rPPG Multi-Kamera-Fernphotoplethysmographie-Datensatz

Zugehörige Datensätze

DRACO Cross-Domain Deep Research Benchmark-Datensatz

Datensatz Zur Psychischen Gesundheit Und Zum Burnout Von Studierenden

Groundsource Global Flood Events Dataset

TransPhy3D Transparent Reflection Synthesis Video Dataset

GroundingME-Datensatz Zur Evaluierung Des Verständnisses Komplexer Szenen

MCIF Multimodal Cross-Language Instruction Following Dataset

MCD-rPPG Multi-Kamera-Fernphotoplethysmographie-Datensatz