TranSalNet : Vers une prédiction de la salience visuelle pertinentes au niveau perceptuel

Prédiction de la saliency visuelle à l’aide de transformateurs – Les réseaux de neurones convolutifs (CNN) ont considérablement progressé dans le domaine du modélisation computationnelle de la saliency. Toutefois, la simulation précise des mécanismes de l’attention visuelle dans le cortex humain demeure un défi académique majeur. Il est essentiel d’intégrer les propriétés de la vision humaine dans la conception des architectures de CNN afin d’obtenir des prédictions de saliency plus pertinentes du point de vue perceptif. En raison des biais inductifs inhérents aux architectures CNN, celles-ci manquent d’une capacité suffisante à encoder des contextes à longue portée, ce qui limite leur capacité à capturer des propriétés proches du comportement d’observation humain. Les transformateurs se sont révélés particulièrement prometteurs pour encoder des informations à longue portée grâce à leur mécanisme d’attention auto-attention. Dans cet article, nous proposons un nouveau modèle de saliency intégrant des composants transformateurs aux CNN afin de capter les informations visuelles contextuelles à longue portée. Les résultats expérimentaux montrent que les transformateurs apportent une valeur ajoutée significative à la prédiction de la saliency, améliorant ainsi sa pertinence perceptuelle. Notre modèle de saliency, basé sur les transformateurs et intitulé TranSalNet, a obtenu des performances supérieures sur plusieurs benchmarks publics et concours dédiés à la prédiction de la saliency.Le code source de notre modèle de saliency proposé, TranSalNet, est disponible à l’adresse suivante : https://github.com/LJOVO/TranSalNet