HyperAIHyperAI

Command Palette

Search for a command to run...

Transformateur de vision par fusion de caractéristiques pour la catégorisation visuelle fine

Jun Wang Xiaohan Yu Yongsheng Gao

Résumé

Le cœur de la catégorisation visuelle fine (FGVC) réside dans l'apprentissage de caractéristiques subtiles mais discriminantes. La plupart des travaux antérieurs y parviennent en sélectionnant explicitement les parties discriminantes ou en intégrant un mécanisme d'attention via des approches basées sur les réseaux de neurones convolutifs (CNN). Toutefois, ces méthodes augmentent la complexité computationnelle et conduisent à des modèles dominés par les régions contenant la majorité des objets. Récemment, les vision transformers (ViT) ont atteint des performances de pointe (SOTA) sur les tâches générales de reconnaissance d’images. Leur mécanisme d’attention auto-associative agrège et pondère l’information provenant de toutes les patches pour le token de classification, ce qui les rend particulièrement adaptés à la FGVC. Néanmoins, le token de classification au niveau profond accorde davantage d’attention à l’information globale, au détriment des caractéristiques locales et de bas niveau essentielles à la FGVC. Dans ce travail, nous proposons un cadre novateur entièrement basé sur les transformateurs, appelé Feature Fusion Vision Transformer (FFVT), dans lequel nous agrégeons les tokens importants extraits de chaque couche du transformateur afin de compenser le manque d’informations locales, de bas et de milieu niveau. Nous avons conçu un nouveau module de sélection de tokens, nommé mutual attention weight selection (MAWS), qui guide efficacement et efficacement le réseau vers la sélection de tokens discriminants, sans introduire de paramètres supplémentaires. Nous avons validé l’efficacité de FFVT sur trois benchmarks, où il atteint des performances de pointe.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp