Command Palette
Search for a command to run...
UniNet : Recherche d'architecture unifiée avec convolution, Transformer et MLP
UniNet : Recherche d'architecture unifiée avec convolution, Transformer et MLP
Jihao Liu Xin Huang Guanglu Song Hongsheng Li Yu Liu
Résumé
Récemment, les architectures basées sur les transformateurs et les perceptrons multicouches (MLP) ont obtenu des résultats remarquables sur diverses tâches de vision. Toutefois, la manière d’effectuer efficacement la combinaison de ces opérateurs pour former des architectures hybrides visuelles à haute performance reste un défi. Dans ce travail, nous étudions la combinaison apprenable de la convolution, du transformateur et du MLP en proposant une nouvelle approche unifiée de recherche d’architecture. Notre méthode repose sur deux innovations clés permettant d’explorer efficacement des réseaux à haute performance. Premièrement, nous modélisons les opérateurs recherchables très différents sous une forme unifiée, ce qui permet de les caractériser à l’aide du même ensemble de paramètres de configuration. Cette approche réduit considérablement la taille de l’espace de recherche global, rendant ainsi le coût total de recherche abordable. Deuxièmement, nous proposons des modules de sous-échantillonnage sensibles au contexte (DSMs, context-aware downsampling modules), afin de réduire l’écart entre les différents types d’opérateurs. Ces DSMs proposés permettent une meilleure adaptation des caractéristiques provenant de divers types d’opérateurs, ce qui est essentiel pour identifier des architectures hybrides performantes. Enfin, nous intégrons des opérateurs configurables et les DSMs dans un espace de recherche unifié, et effectuons la recherche à l’aide d’un algorithme basé sur l’apprentissage par renforcement, afin d’explorer pleinement la combinaison optimale des opérateurs. À cette fin, nous recherchons un réseau de base que nous élargissons pour obtenir une famille de modèles nommée UniNets, qui atteignent une précision et une efficacité nettement supérieures à celles des ConvNets et des Transformers précédents. En particulier, notre UniNet-B5 atteint une précision top-1 de 84,9 % sur ImageNet, surpassant EfficientNet-B7 et BoTNet-T7 respectivement de 44 % et 55 % en nombre d’opérations flottantes (FLOPs). En pré-entraînement sur ImageNet-21K, notre UniNet-B6 atteint 87,4 %, dépassant Swin-L avec 51 % de FLOPs et 41 % de paramètres en moins. Le code est disponible à l’adresse suivante : https://github.com/Sense-X/UniNet.