il y a 17 jours

Conviformers : Vision Transformer guidé par la convolution

Mohit Vaishnav, Thomas Fel, Ivań Felipe Rodríguez, Thomas Serre

Résumé

Les transformateurs d’images sont aujourd’hui le choix par défaut pour les tâches de classification d’images. Deux grandes catégories de tâches de classification existent : la classification fine et la classification grossière. Dans la classification fine, il est essentiel de détecter des différences subtiles en raison du haut degré de similarité entre les sous-classes. Ces distinctions sont souvent perdues lorsque l’on réduit la résolution de l’image afin de réduire la mémoire et le coût computationnel associés aux transformateurs d’images (ViT). Dans ce travail, nous présentons une analyse approfondie et décrivons les composants clés nécessaires au développement d’un système de catégorisation fine des plantes à partir de feuilles de herbier. Notre analyse expérimentale étendue a mis en évidence la nécessité d’une technique d’augmentation améliorée ainsi que la capacité des réseaux neuronaux modernes à traiter des images à haute dimension. Nous introduisons également une architecture hybride convolutive-transformateur appelée Conviformer, qui, contrairement au Vision Transformer populaire (ConViT), permet de gérer des images à haute résolution sans explosion de la mémoire ni du coût computationnel. Nous proposons également une nouvelle technique de prétraitement améliorée, nommée PreSizer, qui permet de redimensionner les images de manière plus efficace tout en préservant leurs rapports d’aspect d’origine, une caractéristique essentielle pour la classification des plantes naturelles. Grâce à notre approche simple mais efficace, nous atteignons un état de l’art (SoTA) sur les jeux de données Herbarium 202x et iNaturalist 2019.