TokenCut : Segmentation d'objets dans des images et des vidéos avec un Transformers auto-supervisé et une coupure normalisée

Dans cet article, nous décrivons un algorithme basé sur les graphes qui utilise les caractéristiques obtenues par un transformateur auto-supervisé pour détecter et segmenter les objets saillants dans des images et des vidéos. Avec cette approche, les patchs d'image composant une image ou une vidéo sont organisés en un graphe entièrement connecté, où chaque arête entre deux patchs est étiquetée avec un score de similarité entre ces patchs, utilisant les caractéristiques apprises par le transformateur. La détection et la segmentation des objets saillants sont ensuite formulées comme un problème de coupe de graphe et résolues à l'aide de l'algorithme classique de Coupe Normalisée (Normalized Cut). Malgré la simplicité de cette approche, elle obtient des résultats d'état de l'art sur plusieurs tâches courantes de détection et de segmentation d'images et de vidéos. Pour la découverte non supervisée d'objets, cette approche surpasses les méthodes concurrentes respectivement de 6,1 %, 5,7 % et 2,6 % lorsqu'elle est testée avec les ensembles de données VOC07, VOC12 et COCO20K. Pour la tâche de détection non supervisée de la saillance dans les images, cette méthode améliore le score du rapport Intersection sur Union (IoU) respectivement de 4,4 %, 5,6 % et 5,2 % lorsque testée avec les ensembles de données ECSSD, DUTS et DUT-OMRON. Cette méthode obtient également des résultats compétitifs pour les tâches de segmentation non supervisée d'objets dans les vidéos avec les ensembles de données DAVIS, SegTV2 et FBMS.