Command Palette
Search for a command to run...
Visual Question Answering
Visual Question Answering (VQA) est une sous-tâche dans le domaine de la vision par ordinateur qui vise à permettre aux machines de comprendre le contenu des images et de répondre avec précision aux questions relatives à ces images grâce à une analyse multimodale. L'objectif principal de cette tâche est d'intégrer les informations visuelles et linguistiques pour améliorer les capacités de compréhension des scènes par la machine. Le VQA présente une valeur considérable dans des applications telles que les systèmes d'assistance intelligents, la recherche d'images et la modération de contenu, facilitant ainsi une interaction humain-machine plus naturelle.
MM-Vet
GPT-4V
MM-Vet v2
ViP-Bench
GPT-4V-turbo-detail:high (Visual Prompt)
VQA v2 test-dev
BLIP-2 ViT-G OPT 6.7B (fine-tuned)
BenchLMM
GPT-4V
MMBench
CuMo-7B
VQA v2 val
MSRVTT-QA
Aurora (ours, r=64) Aurora (ours, r=64)
VQA v2 test-std
OFA
MSVD-QA
MMHal-Bench
VQA v2
Emu-I *
PlotQA-D1
PlotQA-D2
MapEval-Visual
VizWiz
Emu-I *
COCO Visual Question Answering (VQA) real images 2.0 open ended
MM-Vet (w/o External Tools)
Emu-14B
VisualMRC
LayoutT5 (Large)
TextVQA test-standard
PromptCap
GQA
V*bench
IVM-Enhanced GPT4-V
GRIT
OFA
EarthVQA
SOBA
CLEVR
NeSyCoCo Neuro-Symbolic
AMBER
RLAIF-V 12B
MS COCO