HyperAIHyperAI초신경
홈뉴스연구 논문튜토리얼데이터셋백과사전SOTALLM 모델GPU 랭킹컨퍼런스
전체 검색
소개
한국어
HyperAIHyperAI초신경
  1. 홈
  2. SOTA
  3. 시각적 질문 응답 (VQA)
  4. Visual Question Answering Vqa On Infoseek

Visual Question Answering Vqa On Infoseek

평가 지표

Accuracy

평가 결과

이 벤치마크에서 각 모델의 성능 결과

모델 이름
Accuracy
Paper TitleRepository
PaLI-X24PaLI-X: On Scaling up a Multilingual Vision and Language Model
BLIP214.6BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
InstructBLIP14.5--
CLIP + FiD20.9Can Pre-trained Vision and Language Models Answer Visual Information-Seeking Questions?
CLIP + PaLM (540B)20.4Can Pre-trained Vision and Language Models Answer Visual Information-Seeking Questions?
PaLI19.7Can Pre-trained Vision and Language Models Answer Visual Information-Seeking Questions?
RA-VQAv2 w/ PreFLMR30.65PreFLMR: Scaling Up Fine-Grained Late-Interaction Multi-modal Retrievers
0 of 7 row(s) selected.
HyperAI

학습, 이해, 실천, 커뮤니티와 함께 인공지능의 미래를 구축하다

한국어

소개

회사 소개데이터셋 도움말

제품

뉴스튜토리얼데이터셋백과사전

링크

TVM 한국어Apache TVMOpenBayes

© HyperAI초신경

TwitterBilibili