HyperAI초신경

문서
뉴스
연구 논문
튜토리얼
데이터셋
백과사전
SOTA
LLM 모델
GPU 랭킹
컨퍼런스

소개 서비스 약관 개인정보 처리방침
한국어

HyperAI초신경

Command Palette

Search for a command to run...

홈
SOTA
시각적 질문 응답 (VQA)

시각적 질문 응답 (VQA)

Visual Question Answering (VQA)는 컴퓨터 비전 분야의 작업으로, 이미지에 대한 질문을 자연어로 답하는 것을 목표로 합니다. 이 작업의 핵심 목적은 기계가 이미지의 내용을 이해하고 정확하고 일관된 언어 형태로 답변할 수 있도록 하는 것입니다. VQA는 인간-컴퓨터 상호작용, 지능형 지원, 콘텐츠 이해 등에서 중요한 응용 가치를 가지고 있으며, 기계의 시각적 인식 능력을 크게 향상시킵니다.

VQA v2 test-dev

VQA v2 test-std

Gemini Ultra (pixel only)

VizWiz 2020 VQA

NS-VQA (1K programs)

COCO Visual Question Answering (VQA) real images 1.0 open ended

TextVQA test-standard

BLIP-2 ViT-G FlanT5 XXL (zero-shot)

LXR955, No Ensemble

COCO Visual Question Answering (VQA) real images 1.0 multiple choice

VCR (QA-R) test

VQA v1 test-dev

VCR (Q-AR) test

VQA v1 test-std

VizWiz 2020 Answerability

COCO Visual Question Answering (VQA) real images 2.0 open ended

COCO Visual Question Answering (VQA) abstract images 1.0 open ended

COCO Visual Question Answering (VQA) abstract 1.0 multiple choice

FigureQA - test 1

BERT LARGE Baseline

Visual Genome (pairs)

PrefixLM with CLIP and T5

Visual Genome (subjects)

DVQA test-familiar

PReFIL (Oracle OCR)

SAN † - hard mask

VizWiz 2018 Answerability

학습, 이해, 실천, 커뮤니티와 함께 인공지능의 미래를 구축하다

한국어

소개

회사 소개 데이터셋 도움말

제품

뉴스 튜토리얼 데이터셋 백과사전

링크

© HyperAI초신경

Discord X (formerly Twitter)

시각적 질문 응답 (VQA) | SOTA | HyperAI초신경