HyperAIHyperAI

Command Palette

Search for a command to run...

Twins : Revisiter la conception de l'attention spatiale dans les Vision Transformers

Xiangxiang Chu Zhi Tian Yuqing Wang Bo Zhang Haibing Ren Xiaolin Wei Huaxia Xia Chunhua Shen

Résumé

Récemment, une variété d'architectures de transformateurs de vision pour des tâches de prédiction dense a été proposée, et celles-ci montrent que la conception de l'attention spatiale est cruciale pour leur succès dans ces tâches. Dans ce travail, nous revisitons la conception de l'attention spatiale et démontrons qu’un mécanisme d’attention spatiale soigneusement conçu, tout en restant simple, se distingue avantageusement par rapport aux approches de pointe. En conséquence, nous proposons deux architectures de transformateurs de vision, nommées Twins-PCPVT et Twins-SVT. Les architectures proposées sont hautement efficaces et faciles à implémenter, ne nécessitant que des multiplications matricielles, fortement optimisées dans les cadres modernes d'apprentissage profond. Plus important encore, ces architectures atteignent des performances exceptionnelles sur une large gamme de tâches visuelles, incluant la classification d’image ainsi que la détection et la segmentation denses. La simplicité combinée à des performances remarquables suggère que nos architectures proposées pourraient servir de squelettes plus puissants pour de nombreuses tâches de vision. Le code source est disponible à l’adresse suivante : https://github.com/Meituan-AutoML/Twins.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp