Bewegungsinduzierte selbstüberwachte Objekterkennung in Videos

In dieser Arbeit betrachten wir die Aufgabe der unüberwachten Objekterkennung in Videos. Frühere Arbeiten haben durch die Verarbeitung von Optischen Flüssen (optical flows) versprechende Ergebnisse bei der Segmentierung von Objekten erzielt. Allerdings bringt die Verwendung von Fluss als Eingabe zwei Nachteile mit sich. Erstens kann der Fluss nicht ausreichend Hinweise liefern, wenn Objekte statisch sind oder teilweise verdeckt werden. Zweitens ist es aufgrund des fehlenden Texturinformationen schwierig, zeitliche Kohärenz allein aus Flusseingaben herzustellen.Um diese Einschränkungen zu überwinden, schlagen wir ein Modell vor, das direkt aufeinanderfolgende RGB-Bilder verarbeitet und den optischen Fluss zwischen beliebigen Bildpaaren unter Verwendung einer schichtbasierten Darstellung (layered representation) ableitet, wobei die Deckkanaele (opacity channels) als Segmentierung behandelt werden. Zusätzlich zur Sicherstellung der Objektpermanenz wenden wir eine zeitlich konsistente Verlustfunktion (temporal consistency loss) auf die aus zufällig gepaarten Bildern abgeleiteten Masken an, die sich auf Bewegungen in unterschiedlichen Geschwindigkeiten beziehen. Dies ermutigt das Modell, auch dann Objekte zu segmentieren, wenn sie sich möglicherweise im aktuellen Zeitpunkt nicht bewegen.Experimentell zeigen wir eine überlegene Leistung im Vergleich zu bisherigen Stand der Technik-Methoden (state-of-the-art methods) auf drei öffentlichen Video-Segmentierung-Datensätzen (DAVIS2016, SegTrackv2 und FBMS-59), während wir durch das Vermeiden des Overheads bei der Berechnung des optischen Flusses als Eingabe rechnerisch effizient bleiben.