HyperAI
HyperAI超神経
ホーム
プラットフォーム
ドキュメント
ニュース
論文
チュートリアル
データセット
百科事典
SOTA
LLMモデル
GPU ランキング
学会
検索
サイトについて
利用規約
プライバシーポリシー
日本語
HyperAI
HyperAI超神経
Toggle Sidebar
サイトを検索…
⌘
K
Command Palette
Search for a command to run...
プラットフォーム
ホーム
SOTA
画像キャプショニング
Image Captioning On Nocaps Val Out Domain
Image Captioning On Nocaps Val Out Domain
評価指標
CIDEr
SPICE
評価結果
このベンチマークにおける各モデルのパフォーマンス結果
Columns
モデル名
CIDEr
SPICE
Paper Title
BLIP-2 ViT-G FlanT5 XL (zero-shot)
124.8
15.1
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
BLIP-2 ViT-G OPT 6.7B (zero-shot)
124.4
14.8
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
BLIP-2 ViT-G OPT 2.7B (zero-shot)
123.4
15.1
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
BLIP_ViT-L
115.3
14.4
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
SimVLM
115.2
-
SimVLM: Simple Visual Language Model Pretraining with Weak Supervision
BLIP_CapFilt-L
111.5
14.2
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
LEMON_large
111.3
14.0
Scaling Up Vision-Language Pre-training for Image Captioning
OmniVL
106.3
14.2
OmniVL:One Foundation Model for Image-Language and Video-Language Tasks
Enc-Dec
94.5
11.9
Conceptual 12M: Pushing Web-Scale Image-Text Pre-Training To Recognize Long-Tail Visual Concepts
VinVL
88.3
12.1
VinVL: Revisiting Visual Representations in Vision-Language Models
0 of 10 row(s) selected.
Previous
Next