ビジュアルクエスチョンアンサリング
Visual Question Answering (VQA) は、コンピュータビジョンの分野におけるサブタスクで、機械が画像の内容を理解し、画像に関連する質問に正確に答えることを可能にする多モーダル分析を目指しています。このタスクの主な目的は、視覚情報と言語情報を統合して、機械のシーン理解能力を向上させることです。VQA は、インテリジェントアシスタンスシステム、画像検索、コンテンツモデレーションなどのアプリケーションにおいて重要な価値を持ち、より自然な人間と機械の対話体験を実現します。
MM-Vet
GPT-4V
MM-Vet v2
ViP-Bench
GPT-4V-turbo-detail:high (Visual Prompt)
VQA v2 test-dev
BLIP-2 ViT-G OPT 6.7B (fine-tuned)
BenchLMM
GPT-4V
MMBench
CuMo-7B
MSRVTT-QA
Aurora (ours, r=64) Aurora (ours, r=64)
VQA v2 val
VQA v2 test-std
OFA
MMHal-Bench
MSVD-QA
PlotQA-D1
PlotQA-D2
VQA v2
Emu-I *
AMBER
RLAIF-V 12B
CLEVR
NeSyCoCo Neuro-Symbolic
COCO Visual Question Answering (VQA) real images 2.0 open ended
EarthVQA
SOBA
GQA
GRIT
OFA
MapEval-Visual
MM-Vet (w/o External Tools)
Emu-14B
TextVQA test-standard
PromptCap
V*bench
IVM-Enhanced GPT4-V
VisualMRC
LayoutT5 (Large)
VizWiz
Emu-I *
MS COCO