MDS-ViTNet : Amélioration de la prédiction de la salience en suivi de regard grâce au Vision Transformer

Dans cet article, nous présentons une nouvelle méthodologie que nous appelons MDS-ViTNet (Multi Decoder Saliency par Vision Transformer Network), destinée à améliorer la prédiction de la salience visuelle ou le suivi de l’œil. Cette approche présente un potentiel significatif pour divers domaines, notamment le marketing, la médecine, la robotique et le commerce de détail. Nous proposons une architecture de réseau qui exploite le Vision Transformer, dépassant ainsi le cadre classique fondé sur le modèle ImageNet. Le cadre adopte une structure encodeur-décodeur, l’encodeur utilisant un Swin Transformer pour extraire efficacement les caractéristiques les plus pertinentes. Ce processus repose sur une méthode d’apprentissage par transfert, au cours de laquelle les couches du Vision Transformer sont converties par l’encodeur Transformer et intégrées de manière fluide dans un décodeur CNN. Cette méthodologie garantit une perte minimale d’information par rapport à l’image d’entrée initiale. Le décodeur met en œuvre une technique de décodage multiple, en utilisant deux décodeurs pour générer deux cartes d’attention distinctes, lesquelles sont ensuite combinées en une seule sortie grâce à un modèle CNN supplémentaire. Notre modèle entraîné, MDS-ViTNet, atteint des résultats de pointe sur plusieurs benchmarks. Engagés à favoriser la collaboration scientifique, nous avons l’intention de rendre accessibles au public notre code source, nos modèles et nos jeux de données.