HyperAIHyperAI
vor 2 Monaten

Alles verfolgen mit dekoppelter Video-Segmentierung

Ho Kei Cheng; Seoung Wug Oh; Brian Price; Alexander Schwing; Joon-Young Lee
Alles verfolgen mit dekoppelter Video-Segmentierung
Abstract

Trainingsdaten für die Videosegmentierung sind teuer zu annotieren. Dies erschwert Erweiterungen von End-to-End-Algorithmen auf neue Videosegmentierungsaufgaben, insbesondere in Szenarien mit großem Wortschatz. Um "jedes beliebige Objekt" zu verfolgen, ohne für jede einzelne Aufgabe Video-Daten zu trainieren, entwickeln wir einen entkoppelten Ansatz zur Videosegmentierung (DEVA), der sich aus aufgabenspezifischer Bildsegmentierung und klassen-/aufgabenunabhängiger bidirektionaler zeitlicher Propagation zusammensetzt. Durch dieses Design benötigen wir nur ein bildbasiertes Modell für die Ziel-Aufgabe (das billiger zu trainieren ist) und ein universelles temporales Propagationsmodell, das einmal trainiert wird und sich auf verschiedene Aufgaben überträgt. Um diese beiden Module effektiv zu kombinieren, verwenden wir eine bidirektionale Propagation zur (halb-)online Fusion von Segmentierungsannahmen aus verschiedenen Frames, um eine kohärente Segmentierung zu erzeugen. Wir zeigen, dass diese entkoppelte Formulierung in mehreren datenkargen Aufgaben günstig mit End-to-End-Ansätzen kontrastiert, darunter Videosegmentierung mit großem Wortschatz, offene-Welt-Videosegmentierung, referenzbasierte Videosegmentierung und unüberwachte Videoobjektsegmentierung. Der Quellcode ist unter folgender URL verfügbar: https://hkchengrex.github.io/Tracking-Anything-with-DEVA

Alles verfolgen mit dekoppelter Video-Segmentierung | Neueste Forschungsarbeiten | HyperAI