Attention Auto-Attention Polarisée : Vers une Régression Pixel-par-Pixel de Haute Qualité

La régression par pixel est probablement le problème le plus courant dans les tâches de vision par ordinateur à granularité fine, telles que l’estimation de cartes de chaleur de points clés ou de masques de segmentation. Ces problèmes de régression sont particulièrement difficiles, car ils exigent, tout en maintenant un coût computationnel faible, la modélisation de dépendances à longue portée sur des entrées/sorties à haute résolution afin d’estimer des sémantiques pixel par pixel fortement non linéaires. Bien que les mécanismes d’attention dans les réseaux neuronaux profonds à convolution (DCNN) soient devenus populaires pour améliorer les dépendances à longue portée, les attentions spécifiques aux éléments, telles que les blocs Nonlocal, sont très complexes à apprendre et sensibles au bruit, tandis que la plupart des hybridations d’attention simplifiées cherchent à atteindre un compromis optimal entre plusieurs types de tâches. Dans cet article, nous proposons le bloc d’attention auto-polarisée (Polarized Self-Attention, PSA), qui intègre deux conceptions critiques pour obtenir une régression pixel par pixel de haute qualité : (1) filtrage polarisé : maintenir une haute résolution interne à la fois dans le calcul de l’attention sur les canaux et sur l’espace, tout en réduisant complètement les tenseurs d’entrée selon leurs dimensions correspondantes ; (2) amélioration : composer une non-linéarité directement adaptée à la distribution de sortie typique des régressions à granularité fine, comme la distribution gaussienne 2D (pour les cartes de chaleur de points clés) ou la distribution binormiale 2D (pour les masques de segmentation binaire). Le PSA semble avoir épuisé la capacité de représentation de ses branches respectivement canal uniquement et espace uniquement, si bien qu’aucune différence significative n’est observée entre ses architectures séquentielles et parallèles. Les résultats expérimentaux montrent que le PSA améliore les modèles de base standards de 2 à 4 points, et les états de l’art de 1 à 2 points sur les benchmarks d’estimation de posture 2D et de segmentation sémantique.