السؤال والإجابة المرئية
تعد الإجابة على الأسئلة البصرية (VQA) جزءًا فرعيًا من مجال الرؤية الحاسوبية يهدف إلى تمكين الآلات من فهم محتوى الصور وتقديم إجابات دقيقة على الأسئلة المتعلقة بالصور من خلال تحليل متعدد الوسائط. الهدف الأساسي لهذا المهمة هو دمج المعلومات البصرية واللغوية لتعزيز قدرات الآلة على فهم المشهد. تحمل VQA قيمة كبيرة في التطبيقات مثل أنظمة المساعدة الذكية، بحث الصور، ومراجعة المحتوى، مما يساهم في تحسين تجربة التفاعل بين الإنسان والآلة بشكل طبيعي.
MM-Vet
GPT-4V
MM-Vet v2
ViP-Bench
GPT-4V-turbo-detail:high (Visual Prompt)
VQA v2 test-dev
BLIP-2 ViT-G OPT 6.7B (fine-tuned)
BenchLMM
GPT-4V
MMBench
CuMo-7B
VQA v2 val
MSRVTT-QA
Aurora (ours, r=64) Aurora (ours, r=64)
VQA v2 test-std
OFA
MSVD-QA
MMHal-Bench
VQA v2
Emu-I *
PlotQA-D1
PlotQA-D2
MapEval-Visual
VizWiz
Emu-I *
COCO Visual Question Answering (VQA) real images 2.0 open ended
MM-Vet (w/o External Tools)
Emu-14B
VisualMRC
LayoutT5 (Large)
TextVQA test-standard
PromptCap
GQA
V*bench
IVM-Enhanced GPT4-V
GRIT
OFA
EarthVQA
SOBA
CLEVR
NeSyCoCo Neuro-Symbolic
AMBER
RLAIF-V 12B
MS COCO