HyperAIHyperAI

Command Palette

Search for a command to run...

Transformers à goulot d'étranglement pour la reconnaissance visuelle

Aravind Srinivas Tsung-Yi Lin Niki Parmar Jonathon Shlens Pieter Abbeel Ashish Vaswani

Résumé

Nous présentons BoTNet, une architecture de base conceptuellement simple mais puissante, qui intègre l’attention auto-associative pour plusieurs tâches de vision par ordinateur, notamment la classification d’images, la détection d’objets et la segmentation d’instances. En remplaçant simplement les convolutions spatiales par une attention globale dans les trois derniers blocs bottleneck d’un ResNet, sans aucune autre modification, notre approche améliore significativement les performances par rapport aux modèles de référence en segmentation d’instances et détection d’objets, tout en réduisant le nombre de paramètres, avec un surcoût négligeable en latence. Grâce à la conception de BoTNet, nous soulignons également la manière dont les blocs bottleneck de ResNet intégrant une attention auto-associative peuvent être interprétés comme des blocs Transformer. Sans aucune optimisation supplémentaire, BoTNet atteint 44,4 % d’AP masque et 49,7 % d’AP boîte sur le benchmark COCO pour la segmentation d’instances, en utilisant le cadre Mask R-CNN, surpassant ainsi les meilleurs résultats publiés précédemment pour un seul modèle et une seule échelle sur l’ensemble de validation COCO, obtenus avec ResNeSt. Enfin, nous proposons une adaptation simple de la conception de BoTNet pour la classification d’images, donnant lieu à des modèles atteignant une performance remarquable de 84,7 % d’exactitude top-1 sur le benchmark ImageNet, tout en étant jusqu’à 1,64 fois plus rapides en temps de calcul que les modèles populaires EfficientNet sur matériel TPU-v3. Nous espérons que notre approche simple et efficace pourra servir de base solide pour les recherches futures sur les modèles à attention auto-associative en vision par ordinateur.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Transformers à goulot d'étranglement pour la reconnaissance visuelle | Articles | HyperAI