HyperAIHyperAI
vor 2 Monaten

Lernen von Position und Zielkonsistenz für memoriabasierte Video-Objekt-Segmentierung

Li Hu; Peng Zhang; Bang Zhang; Pan Pan; Yinghui Xu; Rong Jin
Lernen von Position und Zielkonsistenz für memoriabasierte Video-Objekt-Segmentierung
Abstract

Dieses Papier untersucht das Problem der semi-überwachten VideoobjektsSegmentierung (VOS). Mehrere Arbeiten haben gezeigt, dass speicherbasierte Ansätze für die VideoobjektsSegmentierung effektiv sein können. Sie basieren in der Regel auf pixelbasiertem Matching, sowohl räumlich als auch zeitlich. Der Hauptnachteil von speicherbasierten Ansätzen besteht darin, dass sie die sequenzielle Reihenfolge der Frames nicht berücksichtigen und Wissen auf Objektebene vom Ziel nicht nutzen. Um diese Einschränkung zu überwinden, schlagen wir ein Framework zur Lernposition und Zielkonsistenz für speicherbasierte VideoobjektsSegmentierung vor, das als LCM (Learn position and target Consistency framework) bezeichnet wird. Es wendet den Speichermechanismus an, um Pixel global zu retrivieren, und lernt gleichzeitig die Positionskonsistenz für eine zuverlässigere Segmentierung. Die gelernte Lokalisierungsantwort fördert eine bessere Unterscheidbarkeit zwischen dem Ziel und Störelementen. Darüber hinaus führt LCM eine Beziehung auf Objektebene vom Ziel ein, um die Zielkonsistenz aufrechtzuerhalten und LCM gegenüber Fehlern im Verlauf robuster zu machen. Experimente zeigen, dass unser LCM sowohl auf dem DAVIS- als auch auf dem Youtube-VOS-Benchmark state-of-the-art-Leistungen erzielt. In der DAVIS 2020 Challenge erreichen wir den 1. Platz in der semi-überwachten VOS-Aufgabe.

Lernen von Position und Zielkonsistenz für memoriabasierte Video-Objekt-Segmentierung | Neueste Forschungsarbeiten | HyperAI