Online-Anpassung von Faltungsneuronalen Netzen für die Video-Objekt-Segmentierung

Wir befassen uns mit der Aufgabe der halbüberwachten VideoobjektsSegmentierung, d.h. dem Segmentieren von Pixeln, die einem Objekt im Video zugehören, unter Verwendung der Ground-Truth-Pixelmaske für den ersten Frame. Wir bauen auf dem kürzlich eingeführten One-Shot-Video-ObjektsSegmentierung (OSVOS)-Ansatz auf, der ein vortrainiertes Netzwerk verwendet und es am ersten Frame feintuningt. Obwohl OSVOS beeindruckende Leistungen erzielt, verwendet es während des Testens das feintuningte Netzwerk in unveränderter Form und ist nicht in der Lage, sich an große Änderungen im Erscheinungsbild des Objekts anzupassen. Um diese Einschränkung zu überwinden, schlagen wir eine Online-Anpassung der VideoobjektsSegmentierung (OnAVOS) vor, die das Netzwerk online aktualisiert, indem es Trainingsbeispiele auswählt, die auf dem Konfidenzniveau des Netzwerks und der räumlichen Konfiguration basieren. Zudem fügen wir einen Vortrainingschritt hinzu, der auf Objektivität basiert und auf PASCAL gelernt wird. Unsere Experimente zeigen, dass beide Erweiterungen hoch effektiv sind und den Stand der Technik auf DAVIS durch einen Intersection-over-Union-Wert von 85,7 % verbessern.