LSMVOS: Long-Short-Term Similarity Matching for Video Object

Ziel: Semi-supervised Video Object Segmentation bezeichnet die Segmentierung eines Objekts in nachfolgenden Frames anhand der Objektkennzeichnung im ersten Frame. Bestehende Algorithmen basieren in der Regel auf Matching- und Propagation-Strategien, die häufig den vorherigen Frame mittels Maskierung oder optischer Flussinformationen nutzen. In dieser Arbeit wird eine neue Propagationsmethode vorgestellt, bei der kurzezeitliche Matching-Module zur Extraktion von Informationen aus dem vorherigen Frame eingesetzt und anschließend in den Propagationsprozess integriert werden. Hierfür wird das Netzwerk Long-Short-Term Similarity Matching for Video Object Segmentation (LSMOVS) vorgeschlagen. Methode: Durch pixelgenaues Matching und Korrelation zwischen dem langfristigen Matching-Modul und dem kurzfristigen Matching-Modul im Vergleich zum ersten Frame und dem vorherigen Frame werden eine globale Ähnlichkeitskarte und eine lokale Ähnlichkeitskarte sowie die Merkmalsmuster des aktuellen Frames und die Maske des vorherigen Frames generiert. Anschließend werden die Ergebnisse durch zwei Nachbearbeitungsnetzwerke verfeinert und schließlich mittels eines Segmentierungsnetzwerks finalisiert. Ergebnisse: Die experimentellen Ergebnisse auf den Datensätzen DAVIS 2016 und 2017 zeigen, dass die vorgeschlagene Methode eine vorteilhafte durchschnittliche Regionssimilitude und Konturgenauigkeit erreicht, ohne Online-Finetuning durchzuführen. Die Werte betragen 86,5 % bei einzelnen Zielen und 77,4 % bei mehreren Zielen. Zudem erreicht das Verfahren eine Segmentierungsgeschwindigkeit von bis zu 21 Frames pro Sekunde. Schlussfolgerung: Das in dieser Arbeit vorgeschlagene kurzfristige Matching-Modul ermöglicht eine effektivere Extraktion von Informationen aus dem vorherigen Frame im Vergleich zu einer reinen Maskierung. Durch die Kombination des langfristigen mit dem kurzfristigen Matching-Modul kann das gesamte Netzwerk eine effiziente Video-Objekt-Segmentierung ohne Online-Finetuning erreichen.