VizWiz-Datensatz Für Visuelle Fragen Und Antworten Für Blinde
Datum
Größe
Veröffentlichungs-URL
Lizenz
CC BY 4.0
Kategorien

VizWiz-VQA (Visual Question Answering) ist ein Bilddatensatz zur visuellen Frage-und-Antwort-Funktion für Blinde. Blinde Benutzer verwenden die VizWiz-Software, um ein Foto aufzunehmen und eine mündliche Frage zu dem Foto sowie 10 Crowdsourcing-Antworten auf die Frage aufzuzeichnen. Dieser Datensatz wird verwendet, um die folgenden zwei Probleme zu lösen: Das eine besteht darin, die Antwort auf eine visuelle Frage vorherzusagen, und das andere besteht darin, festzustellen, ob eine visuelle Frage beantwortet werden kann. Ziel dieses Datensatzes ist die Untersuchung allgemeinerer Algorithmen, die blinden Menschen bei der Überwindung von Hindernissen im Leben helfen sollen.
Der Datensatz enthält (neueste Version 2020):
- 20.523 Paare aus Trainingsbildern/Fragen
- 205.230 für Trainingsantworten/Antwortsicherheit
- 4319 Verifizierungsbilder/-fragen
- 43.190 Paare verifizierter Antworten/Antwortsicherheit
- 8.000 Testbild-/Fragenpaare