PiCANet : Apprentissage de l'attention contextuelle pixel par pixel pour la détection de la saillance

Les contextes jouent un rôle important dans la tâche de détection de saillance. Cependant, étant donné une région contextuelle, toutes les informations contextuelles ne sont pas utiles pour la tâche finale. Dans cet article, nous proposons un nouveau réseau d'attention contextuelle par pixel, appelé PiCANet (Pixel-wise Contextual Attention Network), pour apprendre à porter une attention sélective aux emplacements contextuels informatifs pour chaque pixel. Plus précisément, pour chaque pixel, il peut générer une carte d'attention où chaque poids d'attention correspond à la pertinence contextuelle à chaque emplacement contextuel. Une caractéristique contextuelle attentive peut ensuite être construite en agrégant sélectivement les informations contextuelles. Nous formulons le PiCANet proposé sous des formes globale et locale afin de porter une attention aux contextes globaux et locaux, respectivement. Les deux modèles sont entièrement différentiables et peuvent être intégrés dans les CNNs (Convolutional Neural Networks) pour un entraînement conjoint. Nous avons également incorporé les modèles proposés à l'architecture U-Net pour détecter les objets saillants. De nombreuses expériences montrent que les PiCANets proposés peuvent améliorer de manière constante les performances de détection de saillance. Les PiCANets globaux et locaux facilitent l'apprentissage du contraste global et de l'homogénéité locale, respectivement. En conséquence, notre modèle de saillance peut détecter les objets saillants avec plus de précision et d'uniformité, se positionnant ainsi favorablement par rapport aux méthodes de pointe actuelles.