HyperAI

VizWiz-Datensatz Für Visuelle Fragen Und Antworten Für Blinde

Datum

vor 3 Jahren

Größe

17.65 GB

Organisation

Universität von Texas in Austin

Veröffentlichungs-URL

vizwiz.org

Lizenz

CC BY 4.0

特色图像

VizWiz-VQA (Visual Question Answering) ist ein Bilddatensatz zur visuellen Frage-und-Antwort-Funktion für Blinde. Blinde Benutzer verwenden die VizWiz-Software, um ein Foto aufzunehmen und eine mündliche Frage zu dem Foto sowie 10 Crowdsourcing-Antworten auf die Frage aufzuzeichnen. Dieser Datensatz wird verwendet, um die folgenden zwei Probleme zu lösen: Das eine besteht darin, die Antwort auf eine visuelle Frage vorherzusagen, und das andere besteht darin, festzustellen, ob eine visuelle Frage beantwortet werden kann. Ziel dieses Datensatzes ist die Untersuchung allgemeinerer Algorithmen, die blinden Menschen bei der Überwindung von Hindernissen im Leben helfen sollen.

Der Datensatz enthält (neueste Version 2020):

  • 20.523 Paare aus Trainingsbildern/Fragen
  • 205.230 für Trainingsantworten/Antwortsicherheit
  • 4319 Verifizierungsbilder/-fragen
  • 43.190 Paare verifizierter Antworten/Antwortsicherheit
  • 8.000 Testbild-/Fragenpaare
VisWiz.torrent
Seeding 1Herunterladen 1Abgeschlossen 118Gesamtdownloads 211
  • VisWiz/
    • README.md
      1.41 KB
    • README.txt
      2.82 KB
      • data/
        • API.zip
          176.98 MB
        • Annotations.zip
          178.55 MB
        • test.zip
          3.88 GB
        • train.zip
          14.4 GB
        • val.zip
          17.65 GB