Transformers à vision avec diversification des patches

Le vision transformer a fait preuve d’un rendement prometteur sur des tâches exigeantes de vision par ordinateur. Toutefois, l’entraînement direct des vision transformers peut conduire à des résultats instables et sous-optimaux. Les travaux récents proposent d’améliorer les performances des vision transformers en modifiant les architectures du transformer, par exemple en intégrant des couches de convolution. À l’inverse, nous explorons une approche orthogonale visant à stabiliser l’entraînement des vision transformers sans modifier leur structure réseau. Nous observons que l’instabilité de l’entraînement peut être attribuée à la forte similarité entre les représentations des patchs extraits. Plus précisément, pour les vision transformers profonds, les blocs d’attention auto-attention ont tendance à mapper des patchs différents vers des représentations latentes similaires, entraînant une perte d’information et une dégradation des performances. Pour atténuer ce problème, nous introduisons dans ce travail de nouveaux fonctions de perte lors de l’entraînement des vision transformers, afin d’encourager explicitement la diversité des représentations des patchs, favorisant ainsi une extraction de caractéristiques plus discriminante. Nous montrons empiriquement que les techniques proposées stabilisent l’entraînement et permettent d’entraîner des vision transformers plus larges et plus profonds. Nous démontrons également que les caractéristiques diversifiées apportent un bénéfice significatif aux tâches en aval dans le cadre d’apprentissage par transfert. Pour la segmentation sémantique, nous améliorons les résultats actuels de l’état de l’art (SOTA) sur les jeux de données Cityscapes et ADE20k. Notre code est disponible à l’adresse suivante : https://github.com/ChengyueGongR/PatchVisionTransformer.