HyperAIHyperAI

Command Palette

Search for a command to run...

WIT-Bild-Text-Datensatz

Datum

vor 3 Jahren

Größe

25.2 GB

Organisation

Google

Veröffentlichungs-URL

github.com

Paper-URL

arxiv.org

Lizenz

Andere

Featured Image

WIT steht für Wikipedia-based Image Text, einen großen multimodalen und mehrsprachigen Datensatz. Der Datensatz besteht aus einer kuratierten Sammlung von 37,6 Millionen mit Entitäten angereicherten Bild-Text-Beispielen, die 11,5 Millionen einzigartige Bilder in 108 Wikipedia-Sprachen enthalten. Aufgrund seiner Größe eignet sich dieser Datensatz zur Verwendung als Vortrainingsdatensatz für multimodale Modelle des maschinellen Lernens.

WIT bietet vier einzigartige Vorteile:

  • WIT ist der größte multimodale Datensatz im Hinblick auf die Anzahl der Bild-Text-Beispiele.
  • Es werden über 100 Sprachen abgedeckt (mit mindestens 12.000 Beispielen pro Sprache) und für viele Bilder wird ein sprachübergreifender Text bereitgestellt.
  • Im Vergleich zu früheren Datensätzen stellt WIT einen vielfältigeren Satz von Konzepten und realen Entitäten dar.
  • WIT bietet einen sehr anspruchsvollen Testsatz für die reale Welt.
WIT.torrent
Seeding 1Herunterladen 1Abgeschlossen 570Gesamtdownloads 736
  • WIT/
    • README.md
      1.41 KB
    • README.txt
      2.82 KB
      • data/
          • test/
            • wit_v1.test.all-00000-of-00005.tsv.gz
              30.8 MB
            • wit_v1.test.all-00001-of-00005.tsv.gz
              61.46 MB
            • wit_v1.test.all-00002-of-00005.tsv.gz
              91.95 MB
            • wit_v1.test.all-00003-of-00005.tsv.gz
              122.5 MB
            • wit_v1.test.all-00004-of-00005.tsv.gz
              153.14 MB
          • train/
            • wit_v1.train.all-00000-of-00010.tsv.gz
              2.64 GB
            • wit_v1.train.all-00001-of-00010.tsv.gz
              5.12 GB
            • wit_v1.train.all-00002-of-00010.tsv.gz
              7.61 GB
            • wit_v1.train.all-00003-of-00010.tsv.gz
              10.1 GB
            • wit_v1.train.all-00004-of-00010.tsv.gz
              12.58 GB
            • wit_v1.train.all-00005-of-00010.tsv.gz
              15.07 GB
            • wit_v1.train.all-00006-of-00010.tsv.gz
              17.56 GB
            • wit_v1.train.all-00007-of-00010.tsv.gz
              20.04 GB
            • wit_v1.train.all-00008-of-00010.tsv.gz
              22.53 GB
            • wit_v1.train.all-00009-of-00010.tsv.gz
              25.02 GB
          • val/
            • wit_v1.val.all-00000-of-00005.tsv.gz
              25.05 GB
            • wit_v1.val.all-00001-of-00005.tsv.gz
              25.09 GB
            • wit_v1.val.all-00002-of-00005.tsv.gz
              25.13 GB
            • wit_v1.val.all-00003-of-00005.tsv.gz
              25.17 GB
            • wit_v1.val.all-00004-of-00005.tsv.gz
              25.2 GB

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
WIT-Bild-Text-Datensatz | Datensätze | HyperAI