Visuelles Fragebeantworten
Visual Question Answering (VQA) ist eine Unterdisziplin im Bereich der Computer Vision, die darauf abzielt, Maschinen zu befähigen, Bildinhalte zu verstehen und Fragen zu diesen Bildern durch multimodale Analyse präzise zu beantworten. Das zentrale Ziel dieser Aufgabe besteht darin, visuelle und linguistische Informationen zu integrieren, um die Fähigkeiten der Maschinen zur Szenerkennung zu verbessern. VQA hat erheblichen Wert in Anwendungen wie intelligente Assistenzsysteme, Bildersuche und Inhaltsmoderation, da es eine natürlichere Mensch-Maschine-Interaktion ermöglicht.
MM-Vet
GPT-4V
MM-Vet v2
ViP-Bench
GPT-4V-turbo-detail:high (Visual Prompt)
VQA v2 test-dev
BLIP-2 ViT-G OPT 6.7B (fine-tuned)
BenchLMM
GPT-4V
MMBench
CuMo-7B
MSRVTT-QA
Aurora (ours, r=64) Aurora (ours, r=64)
VQA v2 val
VQA v2 test-std
OFA
MMHal-Bench
MSVD-QA
PlotQA-D1
PlotQA-D2
VQA v2
Emu-I *
AMBER
RLAIF-V 12B
CLEVR
NeSyCoCo Neuro-Symbolic
COCO Visual Question Answering (VQA) real images 2.0 open ended
EarthVQA
SOBA
GQA
GRIT
OFA
MapEval-Visual
MM-Vet (w/o External Tools)
Emu-14B
TextVQA test-standard
PromptCap
V*bench
IVM-Enhanced GPT4-V
VisualMRC
LayoutT5 (Large)
VizWiz
Emu-I *
MS COCO