Human Judgment Correlation On Flickr8K Expert

Kendall's Tau-c

평가 결과

이 벤치마크에서 각 모델의 성능 결과

		Paper Title
MID	54.9	Mutual Information Divergence: A Unified Metric for Multimodal Generative Models
SoftSPICE	54.2	FACTUAL: A Benchmark for Faithful and Consistent Textual Scene Graph Parsing
RefCLIP-S	53.0	CLIPScore: A Reference-free Evaluation Metric for Image Captioning
CLIP-S	51.2	CLIPScore: A Reference-free Evaluation Metric for Image Captioning

0 of 4 row(s) selected.