HyperAIHyperAI
il y a 17 jours

Transformers convolutifs pour la vision

Pranav Jeevan, Amit sethi
Transformers convolutifs pour la vision
Résumé

Les transformateurs d’images (Vision Transformers, ViTs) ont trouvé une utilisation pratique limitée dans le traitement d’images, malgré leur précision de pointe sur certaines benchmarks. Cette limitation s’explique principalement par leur nécessité de grands jeux de données d’entraînement et de ressources computationnelles supérieures à celles des réseaux de neurones convolutifs (CNN), en raison de la complexité quadratique de leur mécanisme d’attention auto-attentive. Nous proposons une architecture hybride linéaire d’attention et de convolution — Convolutional X-formers for Vision (CXV) — afin de surmonter ces contraintes. Nous remplaçons l’attention quadratique par des mécanismes d’attention linéaires, tels que Performer, Nyströmformer et Linear Transformer, afin de réduire la consommation de mémoire GPU. Un prior inductif spécifique aux données d’image est intégré grâce à des sous-couches convolutionnelles, ce qui élimine la nécessité de tokens de classification et d’embeddings de position utilisés par les ViTs. Nous introduisons également une nouvelle méthode d’entraînement basée sur l’utilisation de deux optimiseurs distincts pendant différentes phases de l’entraînement, et démontrons qu’elle améliore la précision en classification d’image de top-1 sur diverses architectures. CXV dépasse les performances des autres architectures, des modèles de mélange de tokens (par exemple ConvMixer, FNet, MLP Mixer), des modèles de transformateurs (par exemple ViT, CCT, CvT et Xformers hybrides) ainsi que des ResNets dans des scénarios à données limitées et ressources GPU restreintes (nombre de cœurs, mémoire vive, puissance).

Transformers convolutifs pour la vision | Articles de recherche récents | HyperAI