Visual Question Answering 1
コンピュータビジョンは、機械が画像や動画を解釈し理解する技術です。この技術の目的は、人間の視覚システムを模倣することで複雑なシーンの自動認識と分析を実現することです。コンピュータビジョンは医療画像診断、自動運転、セキュリティ監視などの分野で広く応用されており、効率性と精度を大幅に向上させ、知能化社会の発展に貢献しています。
AMBER
RLAIF-V 12B
BenchLMM
GPT-4V
CLEVR
NeSyCoCo Neuro-Symbolic
MS COCO
COCO Visual Question Answering (VQA) real images 2.0 open ended
EarthVQA
SOBA
GQA
GRIT
OFA
MapEval-Visual
MM-Vet
Gemini 1.5 Pro (gemini-1.5-pro-002)
MM-Vet v2
MM-Vet (w/o External Tools)
Emu-14B
MMBench
LLaVA-InternLM2-ViT + MoSLoRA
MMHal-Bench
MSRVTT-QA
Aurora (ours, r=64) Aurora (ours, r=64)
MSVD-QA
PlotQA-D1
PlotQA-D2
TextVQA test-standard
PromptCap
V*bench
IVM-Enhanced GPT4-V
ViP-Bench
GPT-4V-turbo-detail:high (Visual Prompt)
VisualMRC
LayoutT5 (Large)
VizWiz
Emu-I *
VQA v2
RLHF-V
VQA v2 test-dev
BLIP-2 ViT-G OPT 6.7B (fine-tuned)
VQA v2 test-std
LXMERT (low-magnitude pruning)
VQA v2 val