il y a 17 jours

Transformateur de vision par fusion de caractéristiques pour la catégorisation visuelle fine

Jun Wang, Xiaohan Yu, Yongsheng Gao

Résumé

Le cœur de la catégorisation visuelle fine (FGVC) réside dans l'apprentissage de caractéristiques subtiles mais discriminantes. La plupart des travaux antérieurs y parviennent en sélectionnant explicitement les parties discriminantes ou en intégrant un mécanisme d'attention via des approches basées sur les réseaux de neurones convolutifs (CNN). Toutefois, ces méthodes augmentent la complexité computationnelle et conduisent à des modèles dominés par les régions contenant la majorité des objets. Récemment, les vision transformers (ViT) ont atteint des performances de pointe (SOTA) sur les tâches générales de reconnaissance d’images. Leur mécanisme d’attention auto-associative agrège et pondère l’information provenant de toutes les patches pour le token de classification, ce qui les rend particulièrement adaptés à la FGVC. Néanmoins, le token de classification au niveau profond accorde davantage d’attention à l’information globale, au détriment des caractéristiques locales et de bas niveau essentielles à la FGVC. Dans ce travail, nous proposons un cadre novateur entièrement basé sur les transformateurs, appelé Feature Fusion Vision Transformer (FFVT), dans lequel nous agrégeons les tokens importants extraits de chaque couche du transformateur afin de compenser le manque d’informations locales, de bas et de milieu niveau. Nous avons conçu un nouveau module de sélection de tokens, nommé mutual attention weight selection (MAWS), qui guide efficacement et efficacement le réseau vers la sélection de tokens discriminants, sans introduire de paramètres supplémentaires. Nous avons validé l’efficacité de FFVT sur trois benchmarks, où il atteint des performances de pointe.