HyperAIHyperAI
il y a 11 jours

Transformers de vision semi-supervisés à grande échelle

Zhaowei Cai, Avinash Ravichandran, Paolo Favaro, Manchen Wang, Davide Modolo, Rahul Bhotika, Zhuowen Tu, Stefano Soatto
Transformers de vision semi-supervisés à grande échelle
Résumé

Nous étudions l'apprentissage semi-supervisé (SSL) pour les vision transformers (ViT), un sujet sous-exploité malgré l'adoption massive des architectures ViT dans diverses tâches. Pour aborder ce problème, nous proposons une nouvelle pipeline SSL, composée d'une première phase de pré-entraînement non supervisé ou auto-supervisé, suivie d'un finetuning supervisé, puis d'un finetuning semi-supervisé. À l'étape de finetuning semi-supervisé, nous adoptons un cadre à enseignant à moyenne mobile exponentielle (EMA) au lieu de la méthode populaire FixMatch, car ce dernier s'avère plus stable et conduit à une meilleure précision pour les vision transformers en contexte semi-supervisé. En outre, nous introduisons un mécanisme probabiliste de mixup pseudo, permettant d'interpoler les échantillons non étiquetés et leurs pseudo-étiquettes afin d'améliorer la régularisation, ce qui est particulièrement crucial pour l'entraînement des ViT présentant un biais inductif faible. La méthode proposée, nommée Semi-ViT, atteint des performances comparables ou supérieures à celles des modèles basés sur les CNN dans le cadre de la classification semi-supervisée. Semi-ViT bénéficie également des avantages d'extensibilité propres aux ViT, pouvant être facilement étendus à des modèles de grande taille tout en maintenant une amélioration progressive de la précision. Par exemple, Semi-ViT-Huge atteint une précision top-1 impressionnante de 80 % sur ImageNet en utilisant uniquement 1 % des étiquettes, un résultat comparable à celui d'Inception-v4 entraîné sur 100 % des étiquettes ImageNet.

Transformers de vision semi-supervisés à grande échelle | Articles de recherche récents | HyperAI