Localisation d'objets avec des transformateurs auto-supervisés et sans étiquettes

La localisation d'objets dans des collections d'images sans supervision peut aider à éviter des campagnes d'annotation coûteuses. Nous proposons une approche simple à ce problème, qui utilise les caractéristiques d'activation d'un transformateur visuel pré-entraîné de manière auto-supervisée. Notre méthode, LOST (Localizing Objects with Self-supervised Transformers), n'a pas besoin de propositions d'objets externes ni d'une exploration de la collection d'images ; elle fonctionne sur une seule image. Néanmoins, nous surpassons les méthodes actuelles de découverte d'objets jusqu'à 8 points CorLoc sur PASCAL VOC 2012. Nous montrons également que l'entraînement d'un détecteur agnostique aux classes sur les objets découverts améliore les résultats de 7 points supplémentaires. De plus, nous présentons des résultats prometteurs pour la tâche de découverte non supervisée d'objets. Le code permettant de reproduire nos résultats est disponible à l'adresse suivante : https://github.com/valeoai/LOST.