SUM : Unification de la salience par Mamba pour la modélisation de l'attention visuelle

La modélisation de l'attention visuelle, importante pour interpréter et prioriser les stimuli visuels, joue un rôle significatif dans des applications telles que le marketing, les multimédias et la robotique. Les modèles traditionnels de prédiction de la saillance, en particulier ceux basés sur les Réseaux Neuronaux Convolutifs (CNN) ou les Transformers, obtiennent des succès notables grâce à l'utilisation de grands ensembles de données annotées. Cependant, les modèles d'avant-garde actuels (SOTA) qui utilisent des Transformers sont coûteux sur le plan computationnel. De plus, des modèles distincts sont souvent nécessaires pour chaque type d'image, manquant ainsi d'une approche unifiée. Dans cet article, nous proposons Saliency Unification through Mamba (SUM), une nouvelle approche qui intègre la modélisation efficace des dépendances à long terme de Mamba avec U-Net pour fournir un modèle unifié pour divers types d'images. En utilisant un bloc innovant d'Espace Visuel Conditionnel (C-VSS), SUM s'adapte dynamiquement à différents types d'images, y compris les scènes naturelles, les pages web et les images commerciales, garantissant une applicabilité universelle à travers différents types de données. Nos évaluations exhaustives sur cinq benchmarks montrent que SUM s'adapte sans heurt aux différentes caractéristiques visuelles et surpassent constamment les modèles existants. Ces résultats positionnent SUM comme un outil polyvalent et puissant pour faire progresser la modélisation de l'attention visuelle, offrant une solution robuste universellement applicable à différents types de contenu visuel.