Image Captioning On Nocaps Val

CIDEr

SPICE

평가 결과

이 벤치마크에서 각 모델의 성능 결과

			Paper Title
Prismer	107.9	14.8	Prismer: A Vision-Language Model with Multi-Task Experts
MetaLM	58.7	8.6	Language Models are General-Purpose Interfaces
VL-T5	4.4	5.3	Unifying Vision-and-Language Tasks via Text Generation

0 of 3 row(s) selected.