SparseSwin : Swin Transformer avec un bloc Transformer épars

Les avancées dans la recherche en vision par ordinateur ont établi l'architecture Transformer comme l'état de l'art pour les tâches de vision par ordinateur. L'un des inconvénients connus de l'architecture Transformer réside dans le grand nombre de paramètres, ce qui peut entraîner un algorithme plus complexe et moins efficace. Ce papier vise à réduire le nombre de paramètres, et par conséquent à améliorer l'efficacité du Transformer. Nous proposons le bloc Sparse Transformer (SparTa), une version modifiée du bloc Transformer, intégrant un convertisseur de jetons creux qui diminue le nombre de jetons utilisés. Nous intégrons ce bloc SparTa dans l'architecture Swin-T (SparseSwin), afin d’exploiter la capacité de Swin à sous-échantillonner son entrée et à réduire le nombre initial de jetons à traiter. Le modèle proposé SparseSwin obtient de meilleurs résultats que d'autres modèles de pointe en classification d’images, avec une précision respective de 86,96 %, 97,43 % et 85,35 % sur les jeux de données ImageNet100, CIFAR10 et CIFAR100. Malgré un nombre réduit de paramètres, ces résultats mettent en évidence le potentiel d’une architecture Transformer utilisant un convertisseur de jetons creux avec un nombre limité de jetons, pour optimiser l’utilisation du Transformer et améliorer ses performances.