HyperAIHyperAI

Command Palette

Search for a command to run...

Attention Auto-Attention Polarisée : Vers une Régression Pixel-par-Pixel de Haute Qualité

Huajun Liu Fuqiang Liu Xinyi Fan Dong Huang

Résumé

La régression par pixel est probablement le problème le plus courant dans les tâches de vision par ordinateur à granularité fine, telles que l’estimation de cartes de chaleur de points clés ou de masques de segmentation. Ces problèmes de régression sont particulièrement difficiles, car ils exigent, tout en maintenant un coût computationnel faible, la modélisation de dépendances à longue portée sur des entrées/sorties à haute résolution afin d’estimer des sémantiques pixel par pixel fortement non linéaires. Bien que les mécanismes d’attention dans les réseaux neuronaux profonds à convolution (DCNN) soient devenus populaires pour améliorer les dépendances à longue portée, les attentions spécifiques aux éléments, telles que les blocs Nonlocal, sont très complexes à apprendre et sensibles au bruit, tandis que la plupart des hybridations d’attention simplifiées cherchent à atteindre un compromis optimal entre plusieurs types de tâches. Dans cet article, nous proposons le bloc d’attention auto-polarisée (Polarized Self-Attention, PSA), qui intègre deux conceptions critiques pour obtenir une régression pixel par pixel de haute qualité : (1) filtrage polarisé : maintenir une haute résolution interne à la fois dans le calcul de l’attention sur les canaux et sur l’espace, tout en réduisant complètement les tenseurs d’entrée selon leurs dimensions correspondantes ; (2) amélioration : composer une non-linéarité directement adaptée à la distribution de sortie typique des régressions à granularité fine, comme la distribution gaussienne 2D (pour les cartes de chaleur de points clés) ou la distribution binormiale 2D (pour les masques de segmentation binaire). Le PSA semble avoir épuisé la capacité de représentation de ses branches respectivement canal uniquement et espace uniquement, si bien qu’aucune différence significative n’est observée entre ses architectures séquentielles et parallèles. Les résultats expérimentaux montrent que le PSA améliore les modèles de base standards de 2 à 4 points, et les états de l’art de 1 à 2 points sur les benchmarks d’estimation de posture 2D et de segmentation sémantique.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp