Semantische Video-Segmentierung durch gatterten rekurrenten Flussausbreitung

Die semantische Video-Segmentierung ist aufgrund der enormen Menge an Daten, die verarbeitet und beschriftet werden müssen, um genaue Modelle zu erstellen, eine Herausforderung. In dieser Arbeit präsentieren wir eine tiefe, von Anfang bis Ende trainierbare Methodik für die Video-Segmentierung, die in der Lage ist, Informationen aus unbeschrifteten Daten zu nutzen, um die semantischen Schätzungen zu verbessern. Unser Modell kombiniert eine Faltungsarchitektur (convolutional architecture) und eine raum-zeitliche Transformer-Rekursionschicht (spatio-temporal transformer recurrent layer), die durch optischen Fluss (optical flow) Beschriftungsinformationen zeitlich verbreiten können und auf Basis ihrer lokal geschätzten Unsicherheit adaptiv gesteuert sind. Die Fluss-, Erkennungs- und gesteuerte zeitliche Verbreitungsmodul können gemeinsam, von Anfang bis Ende trainiert werden. Das zeitliche, gesteuerte rekurrente Flussverbreitungselement unseres Modells kann in jede statische semantische Segmentierungsarchitektur eingebunden werden und sie in ein schwach überwachtes Videoverarbeitungsmodell verwandeln. Unsere umfassenden Experimente mit den anspruchsvollen CityScapes- und CamVid-Datensätzen sowie auf Basis mehrerer tiefer Architekturen zeigen, dass das resultierende Modell unbeschriftete zeitliche Frames neben einem beschrifteten Frame nutzen kann, um sowohl die Genauigkeit der Video-Segmentierung als auch die Konsistenz seiner zeitlichen Beschriftung zu verbessern, ohne zusätzliche Annotationskosten oder erheblichen Rechenaufwand zu verursachen.