Semantischer Fluss für schnelles und genaues Szenenparsen

In diesem Paper konzentrieren wir uns auf die Entwicklung einer effektiven Methode für eine schnelle und genaue Szenenanalyse. Eine gängige Vorgehensweise zur Verbesserung der Leistung besteht darin, hochauflösende Merkmalskarten mit starker semantischer Repräsentation zu erzielen. Zwei weit verbreitete Strategien – atrae Konvolutionen und Merkmalspyramidenfusion – sind entweder rechenintensiv oder ineffektiv. Inspiriert durch den optischen Fluss zur Bewegungsausrichtung zwischen benachbarten Videobildern schlagen wir ein Flow Alignment Module (FAM) vor, um den semantischen Fluss zwischen Merkmalskarten benachbarter Ebenen zu lernen und hochwertige Merkmale effizient und effektiv auf hochauflösende Merkmale zu übertragen. Darüber hinaus zeigt die Integration unseres Moduls in eine typische Merkmalspyramidenstruktur eine überlegene Leistung im Vergleich zu anderen Echtzeit-Verfahren, selbst bei leichtgewichtigen Backbone-Netzwerken wie ResNet-18. Umfassende Experimente werden auf mehreren anspruchsvollen Datensätzen durchgeführt, darunter Cityscapes, PASCAL Context, ADE20K und CamVid. Insbesondere erreicht unser Netzwerk erstmals eine mIoU von 80,4 % auf Cityscapes bei einer Bildwiederholfrequenz von 26 FPS. Der Quellcode ist unter \url{https://github.com/lxtGH/SFSegNets} verfügbar.