HyperAI
HyperAI초신경
홈
플랫폼
문서
뉴스
연구 논문
튜토리얼
데이터셋
백과사전
SOTA
LLM 모델
GPU 랭킹
컨퍼런스
전체 검색
소개
서비스 약관
개인정보 처리방침
한국어
HyperAI
HyperAI초신경
Toggle Sidebar
전체 사이트 검색...
⌘
K
Command Palette
Search for a command to run...
플랫폼
홈
SOTA
시각적 질문 응답 (VQA)
Visual Question Answering Vqa On Infoseek
Visual Question Answering Vqa On Infoseek
평가 지표
Accuracy
평가 결과
이 벤치마크에서 각 모델의 성능 결과
Columns
모델 이름
Accuracy
Paper Title
RA-VQAv2 w/ PreFLMR
30.65
PreFLMR: Scaling Up Fine-Grained Late-Interaction Multi-modal Retrievers
PaLI-X
24
PaLI-X: On Scaling up a Multilingual Vision and Language Model
CLIP + FiD
20.9
Can Pre-trained Vision and Language Models Answer Visual Information-Seeking Questions?
CLIP + PaLM (540B)
20.4
Can Pre-trained Vision and Language Models Answer Visual Information-Seeking Questions?
PaLI
19.7
Can Pre-trained Vision and Language Models Answer Visual Information-Seeking Questions?
BLIP2
14.6
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
InstructBLIP
14.5
-
0 of 7 row(s) selected.
Previous
Next
Visual Question Answering Vqa On Infoseek | SOTA | HyperAI초신경