HyperAIHyperAI
il y a 17 jours

Swin Transformer V2 : Augmentation de la capacité et de la résolution

Ze Liu, Han Hu, Yutong Lin, Zhuliang Yao, Zhenda Xie, Yixuan Wei, Jia Ning, Yue Cao, Zheng Zhang, Li Dong, Furu Wei, Baining Guo
Swin Transformer V2 : Augmentation de la capacité et de la résolution
Résumé

Les modèles de traitement du langage naturel à grande échelle ont démontré une amélioration significative des performances sur les tâches linguistiques, sans signes de saturation. Ils présentent également des capacités impressionnantes en few-shot learning, similaires à celles des êtres humains. Ce papier vise à explorer les modèles à grande échelle dans le domaine de la vision par ordinateur. Nous abordons trois problèmes majeurs liés à l'entraînement et à l'application des grands modèles de vision : instabilité d'entraînement, écart de résolution entre la phase de pré-entraînement et celle de fine-tuning, ainsi que la forte dépendance aux données étiquetées. Trois techniques principales sont proposées : 1) une méthode résiduelle post-norme combinée à une attention cosinus pour améliorer la stabilité d'entraînement ; 2) une méthode de biais de position continue à espacement logarithmique, permettant une transférabilité efficace des modèles pré-entraînés sur des images de faible résolution vers des tâches en aval avec des entrées à haute résolution ; 3) une méthode de pré-entraînement auto-supervisé, SimMIM, visant à réduire la dépendance aux grandes quantités d'images étiquetées. Grâce à ces techniques, ce travail parvient à entraîner un modèle Swin Transformer V2 de 3 milliards de paramètres, le plus grand modèle dense de vision à ce jour, capable d'accepter des images de résolution allant jusqu'à 1 536×1 536. Ce modèle établit de nouveaux records de performance sur quatre tâches représentatives de la vision : classification d'images sur ImageNet-V2, détection d'objets sur COCO, segmentation sémantique sur ADE20K, et classification d'actions vidéo sur Kinetics-400. Par ailleurs, notre méthode d'entraînement est bien plus efficace que celle des modèles visuels à l'échelle du milliard développés par Google : elle nécessite 40 fois moins de données étiquetées et 40 fois moins de temps d'entraînement. Le code est disponible à l'adresse suivante : \url{https://github.com/microsoft/Swin-Transformer}.

Swin Transformer V2 : Augmentation de la capacité et de la résolution | Articles de recherche récents | HyperAI