HyperAIHyperAI
il y a 17 jours

Transformateur Split-Fusion Adaptatif

Zixuan Su, Hao Zhang, Jingjing Chen, Lei Pang, Chong-Wah Ngo, Yu-Gang Jiang
Transformateur Split-Fusion Adaptatif
Résumé

Les réseaux de neurones pour la compréhension du contenu visuel ont récemment évolué des réseaux de convolution (CNN) vers les transformateurs. Les premiers (CNN) reposent sur des noyaux à fenêtre étroite pour capturer des indices régionaux, démontrant une expressivité locale solide. En revanche, les seconds (transformateurs) établissent des connexions globales à longue portée entre les localités afin de favoriser un apprentissage holistique. Inspirés par cette complémentarité, un intérêt croissant se manifeste dans la conception de modèles hybrides visant à tirer parti optimal de chaque approche. Toutefois, les modèles hybrides actuels se contentent de remplacer les convolutions par des approximations simples de projections linéaires ou d’associer simplement une branche de convolution à une branche d’attention, sans tenir compte de l’importance du modèle local/global. Pour relever ce défi, nous proposons un nouveau modèle hybride nommé Adaptive Split-Fusion Transformer (ASF-former), qui traite différemment les branches convolutionnelles et d’attention grâce à des poids adaptatifs. Plus précisément, l’encodeur ASF-former divise équitablement les canaux de caractéristiques en deux parties afin d’alimenter deux voies distinctes. Ensuite, les sorties de ces deux voies sont fusionnées à l’aide d’échelles de pondération calculées à partir de signaux visuels. Nous avons également conçu la branche convolutionnelle de manière compacte, afin de répondre à des contraintes d’efficacité. Des expériences étendues sur des benchmarks standards — tels que ImageNet-1K, CIFAR-10 et CIFAR-100 — montrent que notre ASF-former surpasser ses homologues CNN et transformateur, ainsi que les modèles hybrides précurseurs, en termes de précision (83,9 % sur ImageNet-1K), sous des conditions comparables (12,9 G MACs / 56,7 M paramètres, sans pré-entraînement à grande échelle). Le code source est disponible à l’adresse suivante : https://github.com/szx503045266/ASF-former.