HyperAIHyperAI
il y a 17 jours

Bases MetaFormer pour la vision

Weihao Yu, Chenyang Si, Pan Zhou, Mi Luo, Yichen Zhou, Jiashi Feng, Shuicheng Yan, Xinchao Wang
Bases MetaFormer pour la vision
Résumé

Le MetaFormer, architecture abstraite du Transformer, s’est révélé jouer un rôle fondamental dans l’obtention de performances compétitives. Dans ce travail, nous approfondissons davantage la capacité du MetaFormer, sans toutefois nous concentrer sur la conception du mélangeur de tokens : nous proposons plusieurs modèles de base fondés sur le MetaFormer en utilisant les mélangeurs les plus élémentaires ou les plus courants, et synthétisons nos observations comme suit : (1) Le MetaFormer garantit une borne inférieure solide en termes de performance. En ne recourant qu’à une application d’identité comme mélangeur de tokens, le modèle MetaFormer, baptisé IdentityFormer, atteint une précision supérieure à 80 % sur ImageNet-1K. (2) Le MetaFormer s’adapte efficacement à tout type de mélangeur de tokens. Même lorsqu’on utilise une matrice aléatoire comme mélangeur de tokens, le modèle résultant, RandFormer, atteint une précision supérieure à 81 %, surpassant ainsi IdentityFormer. On peut donc s’assurer de résultats robustes du MetaFormer même lors de l’adoption de nouveaux mélangeurs de tokens. (3) Le MetaFormer permet aisément d’obtenir des résultats de pointe. En se contentant de mélangeurs de tokens classiques datant de cinq ans, les modèles construits à partir du MetaFormer dépassent déjà les états de l’art. (a) ConvFormer surpasse ConvNeXt. En utilisant des convolutions séparables profondes, couramment employées, comme mélangeur de tokens, le modèle nommé ConvFormer — qui peut être considéré comme un réseau neuronal convolutif pur — dépasse le modèle convolutif puissant ConvNeXt. (b) CAFormer établit un nouveau record sur ImageNet-1K. En appliquant simplement des convolutions séparables profondes comme mélangeur de tokens dans les étages inférieurs et une attention auto-classique dans les étages supérieurs, le modèle CAFormer fixe un nouveau record sur ImageNet-1K : il atteint une précision de 85,5 % à une résolution de 224×224, dans un cadre d’apprentissage supervisé classique, sans recourir à des données externes ni à une distillation. Lors de notre exploration du MetaFormer, nous avons également découvert une nouvelle fonction d’activation, StarReLU, qui réduit de 71 % les FLOPs associés à l’activation par rapport à GELU, tout en offrant des performances supérieures. Nous anticipons que StarReLU trouvera un grand potentiel dans les modèles du type MetaFormer ainsi que dans d’autres architectures neuronales.