Domain Generalization On Imagenet Sketch

المقاييس

Top-1 accuracy

النتائج

نتائج أداء النماذج المختلفة على هذا المعيار القياسي

اسم النموذج	Top-1 accuracy	Paper Title	Repository
Model soups (ViT-G/14)	74.24	Model soups: averaging weights of multiple fine-tuned models improves accuracy without increasing inference time
Pyramid Adversarial Training Improves ViT	41.04	Pyramid Adversarial Training Improves ViT Performance
MAE (ViT-H, 448)	50.9	Masked Autoencoders Are Scalable Vision Learners
CAFormer-B36 (IN21K, 384)	54.5	MetaFormer Baselines for Vision
ConvFormer-B36 (IN21K, 384)	52.9	MetaFormer Baselines for Vision
Pyramid Adversarial Training Improves ViT (Im21k)	46.03	Pyramid Adversarial Training Improves ViT Performance
CAFormer-B36	42.5	MetaFormer Baselines for Vision
MAE+DAT (ViT-H)	50.03	Enhance the Visual Representation via Discrete Adversarial Training
ConvFormer-B36	39.5	MetaFormer Baselines for Vision
Discrete Adversarial Distillation (ViT-B, 224)	46.1	Distilling Out-of-Distribution Robustness from Vision-Language Foundation Models
Model soups (BASIC-L)	77.18	Model soups: averaging weights of multiple fine-tuned models improves accuracy without increasing inference time
CAFormer-B36 (IN21K)	52.8	MetaFormer Baselines for Vision
ConvFormer-B36 (IN21K)	52.7	MetaFormer Baselines for Vision
GPaCo (ViT-L)	48.3	Generalized Parametric Contrastive Learning
Sequencer2D-L	35.8	Sequencer: Deep LSTM for Image Classification
CAR-FT (CLIP, ViT-L/14@336px)	65.5	Context-Aware Robust Fine-Tuning	-
SEER (RegNet10B)	45.6	Vision Models Are More Robust And Fair When Pretrained On Uncurated Images Without Supervision
DrViT	44.72	Discrete Representations Strengthen Vision Transformer Robustness
ConvNeXt-XL (Im21k, 384)	55.0	A ConvNet for the 2020s
LLE (ViT-H/14, MAE, Edge Aug)	53.39	A Whac-A-Mole Dilemma: Shortcuts Come in Multiples Where Mitigating One Amplifies Others

0 of 20 row(s) selected.