Transformateurs auto-supervisés pour la découverte non supervisée d'objets utilisant la coupure normalisée

Les Transformers formés avec un apprentissage auto-supervisé utilisant une perte d'autodistillation (DINO) ont montré leur capacité à produire des cartes d'attention qui mettent en évidence les objets du premier plan pertinents. Dans cet article, nous démontrons une approche basée sur les graphes qui utilise les caractéristiques des Transformers auto-supervisés pour découvrir un objet dans une image. Les jetons visuels sont considérés comme des nœuds dans un graphe pondéré, où les arêtes représentent un score de connectivité basé sur la similarité des jetons. Les objets du premier plan peuvent ensuite être segmentés en utilisant une coupure de graphe normalisée pour regrouper les régions auto-similaires. Nous résolvons le problème de coupure de graphe en utilisant un clustering spectral avec une décomposition en valeurs propres généralisée et montrons que le deuxième plus petit vecteur propre fournit une solution de coupe car sa valeur absolue indique la probabilité qu'un jeton appartienne à un objet du premier plan. Malgré sa simplicité, cette approche améliore considérablement les performances de la découverte non supervisée d'objets : nous surpassons l'état de l'art récent LOST respectivement de 6,9 %, 8,1 % et 8,1 % sur VOC07, VOC12 et COCO20K. Les performances peuvent être encore améliorées en ajoutant un détecteur agnostique aux classes (CAD) en deuxième étape. Notre méthode proposée peut être facilement étendue à la détection non supervisée de la salience et à la détection d'objets faiblement supervisée. Pour la détection non supervisée de la salience, nous améliorons l'IoU respectivement de 4,9 %, 5,2 % et 12,9 % sur ECSSD, DUTS et DUT-OMRON par rapport à l'état de l'art précédent. Pour la détection d'objets faiblement supervisée, nous obtenons des performances compétitives sur CUB et ImageNet.