Command Palette
Search for a command to run...
VQA (v2.0) Offener Fragen-Antwort-Datensatz
Datum
Größe
Veröffentlichungs-URL
Paper-URL
Lizenz
Andere
VQA (v2.0), dessen vollständiger Name Visual Question Answering (v2.0) lautet, ist ein manuell annotierter, offener Frage-Antwort-Datensatz zu Bildern. Die Beantwortung dieser Fragen erfordert ein gewisses Verständnis von Bildern, Sprache und gesundem Menschenverstand.
Beispielbild:

Der Datensatz umfasst:
- 265.016 Bilder (aus COCO- und abstrakten Szenen-Datensätzen)
- Die Anzahl der Fragen pro Bild ist größer oder gleich 3 (durchschnittlich 5,4 Fragen)
- Jede Frage enthält 10 Grundwahrheiten
- Jede Frage hat 3 plausible (aber nicht unbedingt richtige) Antworten
- Automatische Bewertungsmetriken
Der VQA-Datensatz wurde erstmals im Oktober 2015 veröffentlicht und VQA v2.0 wurde im April 2017 veröffentlicht.Dieser Datensatz ist Version v2.0.Im Vergleich zu VQA v1.0 ergänzt v2.0 jede Frage mit Bildern, um Sprachverzerrungen zu minimieren.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.