HyperAIHyperAI
vor 3 Monaten

Anchor Diffusion für die überwachungsfreie Video-Objektsegmentierung

Zhao Yang, Qiang Wang, Luca Bertinetto, Weiming Hu, Song Bai, Philip H.S. Torr
Anchor Diffusion für die überwachungsfreie Video-Objektsegmentierung
Abstract

Unüberwachte Video-Objektsegmentierung wurde bisher häufig mit Methoden basierend auf rekurrenten neuronalen Netzen und optischem Fluss angegangen. Trotz ihrer Komplexität neigen diese Ansätze dazu, vor allem kurzfristige zeitliche Abhängigkeiten zu bevorzugen und sind daher anfällig für die Akkumulation von Ungenauigkeiten, was zu einer Drift im Laufe der Zeit führt. Zudem können einfache (statische) Bildsegmentierungsmodelle allein bereits konkurrenzfähig gegenüber diesen Methoden sein, was weiterhin nahelegt, die Art und Weise, wie zeitliche Abhängigkeiten modelliert werden, neu zu überdenken. Ausgehend von diesen Beobachtungen erforschen wir in diesem Paper einfache, jedoch effektive Strategien zur Modellierung langfristiger zeitlicher Abhängigkeiten. Inspiriert durch die nicht-lokalen Operatoren von [70] führen wir eine Technik ein, um dichte Korrespondenzen zwischen den Pixel-Embeddings eines Referenz-„Anchor“-Frames und dem aktuellen Frame herzustellen. Dadurch kann das Lernen von Paarbeziehungen über beliebig große zeitliche Distanzen erfolgen, ohne sich auf Zwischenframes zu stützen. Ohne Online-Supervision kann unsere Methode Hintergrund unterdrücken und das Vordergrundobjekt auch in anspruchsvollen Szenarien präzise segmentieren, wobei die Leistung über die Zeit konsistent bleibt. Mit einem mittleren IoU von $81{,}7\%$ erreicht unsere Methode die erste Platzierung auf dem DAVIS-2016-Leaderboard unüberwachter Methoden und bleibt gleichzeitig wettbewerbsfähig gegenüber den State-of-the-Art-Online-Semi-supervised-Ansätzen. Wir evaluieren unsere Methode weiterhin auf dem FBMS-Datensatz und dem ViSal-Datensatz für videobasierte Aufmerksamkeitssalienz und zeigen Ergebnisse, die mit dem Stand der Technik konkurrieren.