Réseau de greffage pyramidal pour la détection de la salience à haute résolution en une seule étape

Les méthodes récentes de détection d'objets saillants (SOD) basées sur les réseaux neuronaux profonds ont obtenu des performances remarquables. Cependant, la plupart des modèles SOD existants conçus pour des entrées à faible résolution montrent de mauvaises performances sur des images à haute résolution en raison du conflit entre la profondeur d'échantillonnage et la taille du champ récepteur. Pour résoudre cette contradiction, nous proposons un nouveau cadre en une étape appelé Réseau de Greffage Pyramidal (PGNet), qui utilise des transformateurs et des backbones CNN pour extraire des caractéristiques d'images à différentes résolutions de manière indépendante, puis greffe les caractéristiques issues de la branche transformateur à la branche CNN. Nous introduisons un module de greffage intermodèle basé sur l'attention (CMGM) afin que la branche CNN puisse combiner les informations détaillées fragmentées de manière plus globale, guidée par différentes sources de caractéristiques lors du processus de décodage. De plus, nous concevons une perte guidée par l'attention (AGL) pour superviser explicitement la matrice d'attention générée par le CMGM, aidant ainsi le réseau à mieux interagir avec l'attention provenant de différents modèles. Nous contribuons également à un nouveau jeu de données Ultra-Haute-Résolution pour la Détection de Saillance (UHRSD), comprenant 5 920 images aux résolutions 4K-8K. À notre connaissance, c'est le plus grand jeu de données en termes de quantité et de résolution pour la tâche SOD à haute résolution, pouvant être utilisé pour l'entraînement et les tests dans les futures recherches. Des expériences suffisantes menées sur UHRSD et sur des jeux de données SOD largement utilisés montrent que notre méthode atteint des performances supérieures comparées aux méthodes les plus avancées actuellement disponibles.