MOVE : Segmentation et détection non supervisée d'objets mobiles

Nous présentons MOVE, une nouvelle méthode permettant de segmenter des objets sans aucune forme de supervision. MOVE exploite le fait que les objets du premier plan peuvent être déplacés localement par rapport à leur position initiale, ce qui donne lieu à de nouvelles images réalistes (non déformées). Cette propriété nous permet d'entraîner un modèle de segmentation sur un ensemble de données d'images non annotées et d'atteindre des performances de pointe (SotA) sur plusieurs ensembles de données d'évaluation pour la détection et la segmentation d'objets saillants non supervisés. En ce qui concerne la découverte non supervisée d'un seul objet, MOVE offre une amélioration moyenne de 7,2 % du CorLoc par rapport à l'état de l'art (SotA), et dans la détection non supervisée d'objets indépendante des classes, elle apporte une amélioration moyenne relative de 53 % de l'AP. Notre approche repose sur des caractéristiques auto-supervisées (par exemple, issues de DINO ou MAE), un réseau d'inpainting (basé sur le Masqued AutoEncoder) et un entraînement adverse.