MOVE: Unüberwachte Segmentierung und Erkennung beweglicher Objekte

Wir stellen MOVE vor, eine neuartige Methode zur Segmentierung von Objekten ohne jede Form der Überwachung. MOVE nutzt die Tatsache, dass Vordergrundobjekte lokal relativ zu ihrer ursprünglichen Position verschoben werden können und dabei realistische (unverzerrte) neue Bilder entstehen. Diese Eigenschaft ermöglicht es uns, ein Segmentierungsmodell auf einem Datensatz von Bildern ohne Annotation zu trainieren und den Stand der Technik (SotA) in mehreren Evaluationsdatensätzen für unüberwachte saliente Objekterkennung und -segmentierung zu erreichen. Bei der unüberwachten Entdeckung einzelner Objekte erzielt MOVE durchschnittlich eine Verbesserung des CorLoc-Werts um 7,2 % gegenüber dem SotA, und bei der unüberwachten klassenunabhängigen Objekterkennung gibt es durchschnittlich eine relative Verbesserung des AP-Werts um 53 %. Unser Ansatz basiert auf selbstüberwachten Merkmalen (z.B. aus DINO oder MAE), einem Inpainting-Netzwerk (auf Basis des Masked AutoEncoder) und einer adversären Trainingsschleife.