Visual Question Answering Vqa On Infoseek

Métriques

Accuracy

Résultats

Résultats de performance de divers modèles sur ce benchmark

		Paper Title
RA-VQAv2 w/ PreFLMR	30.65	PreFLMR: Scaling Up Fine-Grained Late-Interaction Multi-modal Retrievers
PaLI-X	24	PaLI-X: On Scaling up a Multilingual Vision and Language Model
CLIP + FiD	20.9	Can Pre-trained Vision and Language Models Answer Visual Information-Seeking Questions?
CLIP + PaLM (540B)	20.4	Can Pre-trained Vision and Language Models Answer Visual Information-Seeking Questions?
PaLI	19.7	Can Pre-trained Vision and Language Models Answer Visual Information-Seeking Questions?
BLIP2	14.6	BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
InstructBLIP	14.5	-

0 of 7 row(s) selected.

Visual Question Answering Vqa On Infoseek | SOTA | HyperAI