Temporally Verteilte Netzwerke für schnelle Video-Semantische Segmentierung

Wir präsentieren TDNet, ein zeitlich verteiltes Netzwerk, das für eine schnelle und genaue semantische Segmentierung von Videos konzipiert ist. Wir beobachten, dass Merkmale, die aus einer bestimmten hochleveligen Schicht eines tiefen CNN extrahiert werden, durch die Kombination von Merkmalen aus mehreren flacheren Teilnetzwerken approximiert werden können. Ausnutzend der inhärenten zeitlichen Kontinuität in Videos verteilen wir diese Teilnetzwerke über aufeinanderfolgende Frames. Dadurch müssen wir zu jedem Zeitpunkt lediglich eine leichtgewichtige Berechnung durchführen, um eine Gruppe von Teilmerkmalen aus einem einzelnen Teilnetzwerk zu extrahieren. Die vollständigen Merkmale für die Segmentierung werden anschließend durch Anwendung eines neuartigen Aufmerksamkeits-Propagationsmoduls rekonstruiert, das geometrische Verzerrungen zwischen Frames ausgleicht. Zudem wird eine gruppierte Wissensübertragungsverlustfunktion eingeführt, um die Repräsentationskraft sowohl auf vollständiger als auch auf Teilmerkmals-Ebene weiter zu verbessern. Experimente auf den Datensätzen Cityscapes, CamVid und NYUD-v2 zeigen, dass unsere Methode eine state-of-the-art Genauigkeit erreicht, wobei die Geschwindigkeit erheblich gesteigert und die Latenz signifikant reduziert wird.