Schnelle Video-Objektsegmentierung durch referenzgesteuerte Maske-Propagation

Wir stellen eine effiziente Methode für die semi-supervised Video-Objektsegmentierung vor. Unsere Methode erreicht eine Genauigkeit, die mit den aktuellen State-of-the-Art-Verfahren vergleichbar ist, während sie im Vergleich zu anderen Ansätzen nur einen Bruchteil der Rechenzeit benötigt. Hierzu schlagen wir ein tiefes Siamese-Encoder-Decoder-Netzwerk vor, das die Vorteile der Masken-Propagation und der Objektdetektion nutzt, gleichzeitig aber die Schwächen beider Ansätze vermeidet. Unser Netzwerk wird durch einen zweistufigen Trainingsprozess erlernt, der sowohl synthetische als auch reale Daten ausnutzt, und funktioniert robust ohne jegliches Online-Lernen oder Nachverarbeitung. Wir validieren unsere Methode an vier Benchmark-Sets, die sowohl die Segmentierung einzelner als auch mehrerer Objekte abdecken. Auf allen Benchmark-Sets zeigt unsere Methode eine vergleichbare Genauigkeit bei einer um eine Größenordnung schnelleren Laufzeit. Zudem führen wir umfassende Ablations- und Erweiterungsstudien durch, um unser Framework zu analysieren und zu bewerten.