AutoFormer : Recherche de Transformers pour la reconnaissance visuelle

Récemment, les modèles fondés uniquement sur les transformateurs ont démontré un grand potentiel pour des tâches visuelles telles que la classification d’images et la détection. Toutefois, la conception des réseaux transformateurs s’avère complexe. Il a été observé que la profondeur, la dimension d’embedding et le nombre de têtes ont une influence significative sur les performances des transformateurs visuels. Les modèles précédents fixaient ces dimensions par une conception manuelle. Dans ce travail, nous proposons un nouveau cadre de recherche d’architecture à une seule étape, nommé AutoFormer, spécifiquement dédié à la recherche d’architectures pour transformateurs visuels. AutoFormer entrelace les poids des différents blocs au sein des mêmes couches pendant l’entraînement du supernet. Grâce à cette stratégie, le supernet entraîné permet d’obtenir des milliers de sous-réseaux fortement entraînés. Plus précisément, les performances de ces sous-réseaux, dont les poids sont hérités du supernet, sont comparables à celles obtenues par un entraînement depuis le début. En outre, les modèles recherchés, que nous appelons AutoFormers, surpassent les états de l’art récents tels que ViT et DeiT. En particulier, AutoFormer-tiny, -small et -base atteignent respectivement 74,7 %, 81,7 % et 82,4 % de précision top-1 sur ImageNet, avec 5,7 M, 22,9 M et 53,7 M paramètres. Enfin, nous validons la transférabilité d’AutoFormer en présentant ses performances sur des benchmarks en aval ainsi que dans des expériences de distillation. Le code et les modèles sont disponibles à l’adresse suivante : https://github.com/microsoft/AutoML.