HyperAI초신경

Image Captioning On Nocaps Val Out Domain

평가 지표

CIDEr

SPICE

평가 결과

이 벤치마크에서 각 모델의 성능 결과

			Paper Title
BLIP-2 ViT-G FlanT5 XL (zero-shot)	124.8	15.1	BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
BLIP-2 ViT-G OPT 6.7B (zero-shot)	124.4	14.8	BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
BLIP-2 ViT-G OPT 2.7B (zero-shot)	123.4	15.1	BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
BLIP_ViT-L	115.3	14.4	BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
SimVLM	115.2	-	SimVLM: Simple Visual Language Model Pretraining with Weak Supervision
BLIP_CapFilt-L	111.5	14.2	BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
LEMON_large	111.3	14.0	Scaling Up Vision-Language Pre-training for Image Captioning
OmniVL	106.3	14.2	OmniVL:One Foundation Model for Image-Language and Video-Language Tasks
Enc-Dec	94.5	11.9	Conceptual 12M: Pushing Web-Scale Image-Text Pre-Training To Recognize Long-Tail Visual Concepts
VinVL	88.3	12.1	VinVL: Revisiting Visual Representations in Vision-Language Models

0 of 10 row(s) selected.

Image Captioning On Nocaps Val Out Domain | SOTA | HyperAI초신경