Einschüssige Video-Objekt-Segmentierung

Dieses Papier behandelt die Aufgabe der semi-überwachten Videoobjektssegmentierung, d.h. die Trennung eines Objekts vom Hintergrund in einem Video unter Verwendung der Maske des ersten Frames. Wir stellen One-Shot Video Object Segmentation (OSVOS) vor, eine Methode basierend auf einer vollkonvolutiven Neuronalen Netzwerkarchitektur, die in der Lage ist, generische semantische Informationen, die auf ImageNet gelernt wurden, schrittweise auf die Aufgabe der Vordergrundsegmentierung und schließlich auf das Lernen des Erscheinungsbilds eines einzelnen annotierten Objekts in der Testsequenz zu übertragen (daher One-Shot). Obwohl alle Frames unabhängig voneinander verarbeitet werden, sind die Ergebnisse zeitlich kohärent und stabil. Wir führen Experimente mit zwei annotierten Video-Segmentierung-Datenbanken durch, die zeigen, dass OSVOS schnell ist und den Stand der Technik erheblich verbessert (79,8 % im Vergleich zu 68,0 %).