HyperAI
Command Palette
Search for a command to run...
ビジュアルクエスチョンアンサリング
Visual Question Answering (VQA) は、コンピュータビジョンの分野におけるタスクで、画像に関する質問に自然言語で答えることを目指しています。このタスクの主な目的は、機械が画像の内容を理解し、正確で一貫性のある言語形式で回答を提供することです。VQA は、人間とコンピュータの対話、知的支援、コンテンツ理解において重要な応用価値を持ち、機械の視覚的な認知能力を大幅に向上させます。
GQA Test2019
VQA v2 test-dev
Oscar
VQA v2 test-std
BEiT-3
OK-VQA
MetaLM
MSVD-QA
HCRN
MSRVTT-QA
HCRN
DocVQA test
Human
InfographicVQA
Gemini Ultra (pixel only)
GQA test-dev
CFR
VizWiz 2020 VQA
A-OKVQA
CLEVR
NS-VQA (1K programs)
COCO Visual Question Answering (VQA) real images 1.0 open ended
InfiMM-Eval
GPT-4V
TextVQA test-standard
PaLI
IconQA
Patch-TRM
VQA v2 val
BLIP-2 ViT-G FlanT5 XXL (zero-shot)
VCR (Q-A) test
COCO Visual Question Answering (VQA) real images 1.0 multiple choice
MCB 7 att.
VizWiz 2018
LXR955, No Ensemble
VQA-CP
CSS
VQA-CE
RandImg
VLM2-Bench
VCR (QA-R) test
UNITER (Large)
InfoSeek
GQA test-std
ProTo
VQA v1 test-dev
SAAA (ResNet)
VCR (Q-AR) test
GPT4RoI
IllusionVQA
WHOOPS!
VizWiz 2020 Answerability
VQA v1 test-std
SAAA (ResNet)
AutoHallusion
GPT-4V
CLEVR-Humans
MDETR
QLEVR
MAC
PlotQA-D1
PlotQA-D2
PMC-VQA
Visual7W
CMN
HallusionBench
GPT-4V
AI2D
COCO Visual Question Answering (VQA) abstract images 1.0 open ended
COCO Visual Question Answering (VQA) real images 2.0 open ended
HDU-USYD-UNCC
COCO Visual Question Answering (VQA) abstract 1.0 multiple choice
FigureQA - test 1
PReFIL
F-VQA
ZS-F-VQA
VCR (QA-R) dev
VL-BERTLARGE
VCR (Q-AR) dev
VL-BERTLARGE
VCR (Q-A) dev
VL-BERTLARGE
GRIT
TGIF-QA
TDIUC
Accuracy
VQA-X
DocVQA val
BERT LARGE Baseline
GQA
PEVL+
WebSRC
VizWiz 2018 Answerability
ZS-F-VQA
SAN † - hard mask
MVBench
ImageNet
ActivityNet
BLIP-2 T5
ArtQuest
PrefixLM with CLIP and T5
COCO
CORE-MM
DeepForm
DocVQA
DVQA test-familiar
PReFIL (Oracle OCR)
EgoSchema
Lyra-Pro
Visual Genome (subjects)
MM-Vet
MME
OVAD benchmark
RetVQA
MI-BART
TextVQA
Video MME
Visual Genome (pairs)
CMN