Modèles ViT efficaces | SOTA | HyperAI

Les ViTs efficaces visent à améliorer l'efficacité des Vision Transformers (ViTs) sans modifier l'architecture du Transformer. Les principales techniques comprennent la sparsification des clés et des requêtes, le prunage des jetons et leur fusion. Cette approche peut réduire considérablement les coûts de calcul et la consommation de mémoire tout en maintenant les performances du modèle, ce qui améliore les vitesses d'entraînement et d'inférence sur des jeux de données de grande échelle. Elle est particulièrement adaptée au traitement d'images en temps réel et aux tâches de vision par ordinateur dans des environnements à ressources limitées.

ImageNet-1K (with DeiT-S)

ImageNet-1K (with DeiT-T)

ImageNet-1K (With LV-ViT-S)