Visual Question Answering 1
Visual Question Answering (VQA) 是计算机视觉领域的子任务,旨在通过多模态分析,使机器能够理解图像内容并准确回答与图像相关的问题。该任务的核心目标是融合视觉和语言信息,提升机器的场景理解能力。VQA 在智能辅助系统、图像搜索和内容审核等应用场景中具有重要价值,能够实现更自然的人机交互体验。
AMBER
RLAIF-V 12B
BenchLMM
GPT-4V
CLEVR
NeSyCoCo Neuro-Symbolic
MS COCO
COCO Visual Question Answering (VQA) real images 2.0 open ended
EarthVQA
SOBA
GQA
GRIT
OFA
MapEval-Visual
MM-Vet
Gemini 1.5 Pro (gemini-1.5-pro-002)
MM-Vet v2
MM-Vet (w/o External Tools)
Emu-14B
MMBench
LLaVA-InternLM2-ViT + MoSLoRA
MMHal-Bench
MSRVTT-QA
Aurora (ours, r=64) Aurora (ours, r=64)
MSVD-QA
PlotQA-D1
PlotQA-D2
TextVQA test-standard
PromptCap
V*bench
IVM-Enhanced GPT4-V
ViP-Bench
GPT-4V-turbo-detail:high (Visual Prompt)
VisualMRC
LayoutT5 (Large)
VizWiz
Emu-I *
VQA v2
RLHF-V
VQA v2 test-dev
BLIP-2 ViT-G OPT 6.7B (fine-tuned)
VQA v2 test-std
LXMERT (low-magnitude pruning)
VQA v2 val