Zero Shot Segmentation On Ade20K Training

mIoU

Résultats

Résultats de performance de divers modèles sur ce benchmark

Nom du modèle	mIoU	Paper Title
MaskCLIP	10.2	Extract Free Dense Labels from CLIP
GEM (MetaCLIP)	17.1	Grounding Everything: Emerging Localization Properties in Vision-Language Transformers
CLIPSurgery	12.9	A Closer Look at the Explainability of Contrastive Language-Image Pre-training
COSMOS ViT-B/16	17.7	COSMOS: Cross-Modality Self-Distillation for Vision Language Pre-training
GEM (CLIP)	15.7	Grounding Everything: Emerging Localization Properties in Vision-Language Transformers

0 of 5 row(s) selected.