HyperAIHyperAI
il y a 2 mois

Attention guidée par fente pour la segmentation d'objets vidéo non supervisée

Minhyeok Lee; Suhwan Cho; Dogyoon Lee; Chaewon Park; Jungho Lee; Sangyoun Lee
Attention guidée par fente pour la segmentation d'objets vidéo non supervisée
Résumé

La segmentation non supervisée d'objets vidéo vise à segmenter l'objet le plus saillant dans une séquence vidéo. Cependant, la présence de fonds complexes et de plusieurs objets au premier plan rend cette tâche difficile. Pour répondre à ce problème, nous proposons un réseau d'attention guidée par des emplacements (slots) afin de renforcer les informations structurelles spatiales et d'obtenir une meilleure séparation entre le premier plan et l'arrière-plan. Les emplacements du premier plan et de l'arrière-plan, initialisés avec une guidance par requête, sont affinés itérativement en fonction des interactions avec les informations modèles. De plus, pour améliorer l'interaction entre les emplacements et les modèles et fusionner efficacement les caractéristiques globales et locales dans les images cibles et de référence, nous introduisons un filtrage K-plus proches voisins (K-NN) et un transformateur d'agrégation de caractéristiques. Le modèle proposé atteint des performances de pointe sur deux jeux de données populaires. En outre, nous démontrons la robustesse du modèle proposé dans des scènes difficiles à travers diverses expériences comparatives.

Attention guidée par fente pour la segmentation d'objets vidéo non supervisée | Articles de recherche récents | HyperAI