Visual Question Answering 1
Visual Question Answering (VQA)는 컴퓨터 비전 분야의 하위 작업으로, 기계가 이미지 내용을 이해하고 이미지와 관련된 질문에 정확하게 답할 수 있도록 하는 다중 모드 분석을 목표로 합니다. 이 작업의 핵심 목적은 시각적 정보와 언어적 정보를 통합하여 기계의 장면 이해 능력을 향상시키는 것입니다. VQA는 지능형 지원 시스템, 이미지 검색, 콘텐츠 관리 등의 응용 분야에서 중요한 가치를 가지고 있으며, 이를 통해 더욱 자연스러운 인간-기계 상호작용 경험을 제공합니다.
AMBER
RLAIF-V 12B
BenchLMM
GPT-4V
CLEVR
NeSyCoCo Neuro-Symbolic
MS COCO
COCO Visual Question Answering (VQA) real images 2.0 open ended
EarthVQA
SOBA
GQA
GRIT
OFA
MapEval-Visual
MM-Vet
Gemini 1.5 Pro (gemini-1.5-pro-002)
MM-Vet v2
MM-Vet (w/o External Tools)
Emu-14B
MMBench
LLaVA-InternLM2-ViT + MoSLoRA
MMHal-Bench
MSRVTT-QA
Aurora (ours, r=64) Aurora (ours, r=64)
MSVD-QA
PlotQA-D1
PlotQA-D2
TextVQA test-standard
PromptCap
V*bench
IVM-Enhanced GPT4-V
ViP-Bench
GPT-4V-turbo-detail:high (Visual Prompt)
VisualMRC
LayoutT5 (Large)
VizWiz
Emu-I *
VQA v2
RLHF-V
VQA v2 test-dev
BLIP-2 ViT-G OPT 6.7B (fine-tuned)
VQA v2 test-std
LXMERT (low-magnitude pruning)
VQA v2 val