Videoobjekt-Segmentierung ohne zeitliche Informationen

Die Video-Objekt-Segmentierung und die Videoverarbeitung im Allgemeinen wurden historisch von Methoden dominiert, die auf der zeitlichen Konsistenz und Redundanz in aufeinanderfolgenden Videoframes basieren. Wenn die zeitliche Glattheit plötzlich unterbrochen wird, zum Beispiel wenn ein Objekt verdeckt ist oder einige Frames in einer Sequenz fehlen, kann das Ergebnis dieser Methoden erheblich nachlassen oder sie produzieren möglicherweise überhaupt kein Ergebnis. Dieses Papier untersucht den orthogonalen Ansatz, jede Frame unabhängig voneinander zu verarbeiten, d.h. ohne Berücksichtigung der zeitlichen Informationen. Insbesondere behandelt es die Aufgabe der semi-überwachten Video-Objekt-Segmentierung: die Trennung eines Objekts vom Hintergrund in einem Video, wobei dessen Maske im ersten Frame gegeben ist. Wir stellen Semantic One-Shot Video Object Segmentation (OSVOS-S) vor, eine Methode basierend auf einer vollkonvolutiven Neuronalen Netzwerkarchitektur, die in der Lage ist, generische semantische Informationen, die auf ImageNet gelernt wurden, sukzessive zur Vordergrundsegmentierung und schließlich zum Lernen des Aussehens eines einzelnen annotierten Objekts der Testsequenz (daher One-Shot) zu übertragen. Wir zeigen, dass instanzspezifische semantische Informationen bei effektiver Kombination die Ergebnisse unserer früheren Methode OSVOS dramatisch verbessern können. Wir führen Experimente an zwei aktuellen Video-Segmentierungs-Datenbanken durch, die belegen, dass OSVOS-S sowohl die schnellste als auch genaueste Methode im aktuellen Stand der Technik ist.