HyperAIHyperAI
il y a 2 mois

Apprentissage d'un Generative Vision Transformer avec un espace latent basé sur l'énergie pour la prédiction de la salience

Jing Zhang; Jianwen Xie; Nick Barnes; Ping Li
Apprentissage d'un Generative Vision Transformer avec un espace latent basé sur l'énergie pour la prédiction de la salience
Résumé

Les réseaux de transformateurs visuels ont démontré leur supériorité dans de nombreuses tâches de vision par ordinateur. Dans cet article, nous allons plus loin en proposant un nouveau modèle de transformateur visuel génératif avec des variables latentes suivant une loi a priori énergétique informatrice pour la détection d'objets saillants. Le réseau de transformateurs visuels et le modèle de loi a priori énergétique sont conjointement entraînés par l'estimation du maximum de vraisemblance basée sur les chaînes de Markov Monte Carlo, où l'échantillonnage des distributions a posteriori et a priori intractables des variables latentes est effectué par dynamiques de Langevin. De plus, grâce au transformateur visuel génératif, il est possible d'obtenir facilement une carte d'incertitude pixel par pixel à partir d'une image, indiquant la confiance du modèle dans la prédiction de la saillance à partir de l'image. Contrairement aux modèles génératifs existants qui définissent la loi a priori des variables latentes comme une simple distribution gaussienne isotrope, notre modèle utilise une loi a priori énergétique informatrice qui peut être plus expressive pour capturer l'espace latent des données. Nous appliquons le cadre proposé aux tâches de détection d'objets saillants en RGB et en RGB-D. Des résultats expérimentaux étendus montrent que notre cadre peut non seulement réaliser des prédictions de saillance précises mais aussi produire des cartes d'incertitude significatives cohérentes avec la perception humaine.

Apprentissage d'un Generative Vision Transformer avec un espace latent basé sur l'énergie pour la prédiction de la salience | Articles de recherche récents | HyperAI