HyperAIHyperAI超神経
ホームニュース論文チュートリアルデータセット百科事典SOTALLMモデルGPU ランキング学会
検索
サイトについて
日本語
HyperAIHyperAI超神経
  1. ホーム
  2. SOTA
  3. 画像キャプショニング
  4. Image Captioning On Nocaps Val Out Domain

Image Captioning On Nocaps Val Out Domain

評価指標

CIDEr
SPICE

評価結果

このベンチマークにおける各モデルのパフォーマンス結果

モデル名
CIDEr
SPICE
Paper TitleRepository
Enc-Dec94.511.9Conceptual 12M: Pushing Web-Scale Image-Text Pre-Training To Recognize Long-Tail Visual Concepts
BLIP_CapFilt-L111.514.2BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
BLIP_ViT-L115.3 14.4BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
BLIP-2 ViT-G FlanT5 XL (zero-shot)124.815.1BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
OmniVL106.314.2OmniVL:One Foundation Model for Image-Language and Video-Language Tasks-
BLIP-2 ViT-G OPT 6.7B (zero-shot)124.414.8BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
LEMON_large111.3 14.0Scaling Up Vision-Language Pre-training for Image Captioning-
BLIP-2 ViT-G OPT 2.7B (zero-shot)123.415.1BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
SimVLM115.2-SimVLM: Simple Visual Language Model Pretraining with Weak Supervision
VinVL 88.3 12.1VinVL: Revisiting Visual Representations in Vision-Language Models
0 of 10 row(s) selected.
HyperAI

学習、理解、実践、コミュニティと共に人工知能の未来を構築する

日本語

サイトについて

私たちについてデータセットヘルプ

プロダクト

ニュースチュートリアルデータセット百科事典

リンク

TVM 中国語Apache TVMOpenBayes

© HyperAI超神経

TwitterBilibili