HyperAI
HyperAI超神経
ホーム
プラットフォーム
ドキュメント
ニュース
論文
チュートリアル
データセット
百科事典
SOTA
LLMモデル
GPU ランキング
学会
検索
サイトについて
利用規約
プライバシーポリシー
日本語
HyperAI
HyperAI超神経
Toggle Sidebar
サイトを検索…
⌘
K
Command Palette
Search for a command to run...
プラットフォーム
ホーム
SOTA
ビジュアルクエスチョンアンサリング
Visual Question Answering Vqa On Infoseek
Visual Question Answering Vqa On Infoseek
評価指標
Accuracy
評価結果
このベンチマークにおける各モデルのパフォーマンス結果
Columns
モデル名
Accuracy
Paper Title
RA-VQAv2 w/ PreFLMR
30.65
PreFLMR: Scaling Up Fine-Grained Late-Interaction Multi-modal Retrievers
PaLI-X
24
PaLI-X: On Scaling up a Multilingual Vision and Language Model
CLIP + FiD
20.9
Can Pre-trained Vision and Language Models Answer Visual Information-Seeking Questions?
CLIP + PaLM (540B)
20.4
Can Pre-trained Vision and Language Models Answer Visual Information-Seeking Questions?
PaLI
19.7
Can Pre-trained Vision and Language Models Answer Visual Information-Seeking Questions?
BLIP2
14.6
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
InstructBLIP
14.5
-
0 of 7 row(s) selected.
Previous
Next
Visual Question Answering Vqa On Infoseek | SOTA | HyperAI超神経