Transformateur de salience visuelle

Les méthodes actuelles de détection de salience les plus avancées s'appuient fortement sur des architectures basées sur les réseaux de neurones convolutifs (CNN). À l'inverse, nous repensons cette tâche sous l'angle d'une approche séquence-à-séquence libre de convolution, permettant de modéliser des dépendances à longue portée, impossibles à capturer par la convolution. Plus précisément, nous proposons un nouveau modèle unifié fondé sur un transformateur pur, nommé Visual Saliency Transformer (VST), destiné à la détection de objets saillants à partir de données RGB et RGB-D. Ce modèle prend des patches d'image en entrée et utilise le transformateur pour propager les contextes globaux entre les patches. Contrairement aux architectures classiques utilisées dans les Vision Transformer (ViT), nous introduisons une fusion multi-niveaux des tokens et proposons une nouvelle méthode d'upsampling des tokens dans le cadre du transformateur, afin d'obtenir des résultats de détection à haute résolution. Nous avons également conçu un décodeur multi-tâches basé sur les tokens, permettant d'effectuer simultanément la détection de salience et celle des contours grâce à l'introduction de tokens spécifiques aux tâches et à un mécanisme d'attention patch-tâche novateur. Les résultats expérimentaux montrent que notre modèle surpasser les méthodes existantes sur les jeux de données standards de détection de salience RGB et RGB-D. Plus important encore, notre architecture globale offre non seulement une nouvelle perspective pour le domaine de la détection de salience, mais aussi un nouveau paradigme pour les modèles basés sur les transformateurs dans les tâches de prédiction dense. Le code est disponible à l'adresse suivante : https://github.com/nnizhang/VST.