HyperAIHyperAI

Command Palette

Search for a command to run...

WIT-Bild-Text-Datensatz

Datum

vor 3 Jahren

Größe

25.2 GB

Organisation

Google

Veröffentlichungs-URL

github.com

Paper-URL

arxiv.org

Lizenz

Other

Featured Image

WIT steht für Wikipedia-based Image Text, einen großen multimodalen und mehrsprachigen Datensatz. Der Datensatz besteht aus einer kuratierten Sammlung von 37,6 Millionen mit Entitäten angereicherten Bild-Text-Beispielen, die 11,5 Millionen einzigartige Bilder in 108 Wikipedia-Sprachen enthalten. Aufgrund seiner Größe eignet sich dieser Datensatz zur Verwendung als Vortrainingsdatensatz für multimodale Modelle des maschinellen Lernens.

WIT bietet vier einzigartige Vorteile:

  • WIT ist der größte multimodale Datensatz im Hinblick auf die Anzahl der Bild-Text-Beispiele.
  • Es werden über 100 Sprachen abgedeckt (mit mindestens 12.000 Beispielen pro Sprache) und für viele Bilder wird ein sprachübergreifender Text bereitgestellt.
  • Im Vergleich zu früheren Datensätzen stellt WIT einen vielfältigeren Satz von Konzepten und realen Entitäten dar.
  • WIT bietet einen sehr anspruchsvollen Testsatz für die reale Welt.
WIT.torrent
Seeding 0Wird heruntergeladen 1Abgeschlossen 597Gesamtdownloads 783
  • WIT/
    • README.md
      1.41 KB
    • README.txt
      2.82 KB
      • data/
          • test/
            • wit_v1.test.all-00000-of-00005.tsv.gz
              30.8 MB
            • wit_v1.test.all-00001-of-00005.tsv.gz
              61.46 MB
            • wit_v1.test.all-00002-of-00005.tsv.gz
              91.95 MB
            • wit_v1.test.all-00003-of-00005.tsv.gz
              122.5 MB
            • wit_v1.test.all-00004-of-00005.tsv.gz
              153.14 MB
          • train/
            • wit_v1.train.all-00000-of-00010.tsv.gz
              2.64 GB
            • wit_v1.train.all-00001-of-00010.tsv.gz
              5.12 GB
            • wit_v1.train.all-00002-of-00010.tsv.gz
              7.61 GB
            • wit_v1.train.all-00003-of-00010.tsv.gz
              10.1 GB
            • wit_v1.train.all-00004-of-00010.tsv.gz
              12.58 GB
            • wit_v1.train.all-00005-of-00010.tsv.gz
              15.07 GB
            • wit_v1.train.all-00006-of-00010.tsv.gz
              17.56 GB
            • wit_v1.train.all-00007-of-00010.tsv.gz
              20.04 GB
            • wit_v1.train.all-00008-of-00010.tsv.gz
              22.53 GB
            • wit_v1.train.all-00009-of-00010.tsv.gz
              25.02 GB
          • val/
            • wit_v1.val.all-00000-of-00005.tsv.gz
              25.05 GB
            • wit_v1.val.all-00001-of-00005.tsv.gz
              25.09 GB
            • wit_v1.val.all-00002-of-00005.tsv.gz
              25.13 GB
            • wit_v1.val.all-00003-of-00005.tsv.gz
              25.17 GB
            • wit_v1.val.all-00004-of-00005.tsv.gz
              25.2 GB

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp