HyperAIHyperAI

Command Palette

Search for a command to run...

Transformateur de salience visuelle

Nian Liu Ni Zhang Kaiyuan Wan Ling Shao Junwei Han

Résumé

Les méthodes actuelles de détection de salience les plus avancées s'appuient fortement sur des architectures basées sur les réseaux de neurones convolutifs (CNN). À l'inverse, nous repensons cette tâche sous l'angle d'une approche séquence-à-séquence libre de convolution, permettant de modéliser des dépendances à longue portée, impossibles à capturer par la convolution. Plus précisément, nous proposons un nouveau modèle unifié fondé sur un transformateur pur, nommé Visual Saliency Transformer (VST), destiné à la détection de objets saillants à partir de données RGB et RGB-D. Ce modèle prend des patches d'image en entrée et utilise le transformateur pour propager les contextes globaux entre les patches. Contrairement aux architectures classiques utilisées dans les Vision Transformer (ViT), nous introduisons une fusion multi-niveaux des tokens et proposons une nouvelle méthode d'upsampling des tokens dans le cadre du transformateur, afin d'obtenir des résultats de détection à haute résolution. Nous avons également conçu un décodeur multi-tâches basé sur les tokens, permettant d'effectuer simultanément la détection de salience et celle des contours grâce à l'introduction de tokens spécifiques aux tâches et à un mécanisme d'attention patch-tâche novateur. Les résultats expérimentaux montrent que notre modèle surpasser les méthodes existantes sur les jeux de données standards de détection de salience RGB et RGB-D. Plus important encore, notre architecture globale offre non seulement une nouvelle perspective pour le domaine de la détection de salience, mais aussi un nouveau paradigme pour les modèles basés sur les transformateurs dans les tâches de prédiction dense. Le code est disponible à l'adresse suivante : https://github.com/nnizhang/VST.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp