HyperAIHyperAI
vor 11 Tagen

Ein transduktiver Ansatz für die Videobjektsegmentierung

Yizhuo Zhang, Zhirong Wu, Houwen Peng, Stephen Lin
Ein transduktiver Ansatz für die Videobjektsegmentierung
Abstract

Semi-supervised Video Object Segmentation zielt darauf ab, ein Zielobjekt aus einer Videosequenz zu trennen, basierend auf der Maske im ersten Frame. Die meisten aktuellen etablierten Methoden nutzen Informationen aus zusätzlichen Modulen, die in anderen Domänen wie optischem Fluss oder Instanzsegmentierung trainiert wurden, wodurch sie nicht auf gleichem Niveau mit anderen Ansätzen verglichen werden können. Um dieses Problem anzugehen, schlagen wir eine einfache, jedoch leistungsstarke transduktive Methode vor, die keine zusätzlichen Module, Datensätze oder speziellen architektonischen Gestaltungen erfordert. Unser Ansatz basiert auf einer Label-Propagation-Strategie, bei der Pixelbezeichnungen basierend auf der Merkmalsähnlichkeit im Embedding-Raum fortgeleitet werden. Im Gegensatz zu anderen Propagationsmethoden diffundiert unsere Methode zeitliche Informationen ganzheitlich und berücksichtigt dabei langfristige Objektappearance. Zudem erfordert unsere Methode nur geringfügige zusätzliche Rechenkosten und läuft mit einer schnellen Geschwindigkeit von etwa 37 fps. Unser einzelnes Modell mit einem einfachen ResNet50-Backbone erreicht eine Gesamtwertung von 72,3 auf der Validierungsset des DAVIS 2017 und 63,1 auf dem Testset. Diese einfache, jedoch hochleistungsfähige und effiziente Methode kann als solide Basis für zukünftige Forschung dienen. Der Quellcode und die Modelle sind unter \url{https://github.com/microsoft/transductive-vos.pytorch} verfügbar.

Ein transduktiver Ansatz für die Videobjektsegmentierung | Neueste Forschungsarbeiten | HyperAI