Couper et Apprendre pour la Détection d'Objets Non Supervisée et la Segmentation d'Instances

Nous proposons Cut-and-LEaRn (CutLER), une approche simple pour l'entraînement de modèles ddétection et de segmentation d'objets non supervisés. Nous exploitons la propriété des modèles auto-supervisés de « découvrir » des objets sans supervision et nous l'amplifions pour entraîner un modèle de localisation de pointe sans aucune étiquette humaine. CutLER utilise d'abord notre méthode proposée, MaskCut, pour générer des masques grossiers pour plusieurs objets dans une image, puis il apprend un détecteur sur ces masques en utilisant notre fonction de perte robuste. Nous améliorons encore les performances en auto-entraînant le modèle sur ses propres prédictions. Comparé aux travaux antérieurs, CutLER est plus simple, compatible avec différentes architectures de détection et capable de détecter plusieurs objets. De plus, CutLER est un détecteur non supervisé à zéro tir et améliore les performances de détection AP50 de plus de 2,7 fois sur 11 benchmarks couvrant divers domaines tels que les images vidéo, les peintures, les esquisses, etc. Avec un affinage, CutLER peut servir de détecteur à faible tir, surpassant MoCo-v2 de 7,3 % en APbox et 6,6 % en APmask sur COCO lors de l'entraînement avec 5 % des étiquettes.