SFNet: Schnellere und genaue semantische Segmentierung durch Semantischen Fluss

In dieser Arbeit konzentrieren wir uns auf die Erforschung effektiver Methoden für eine schnellere und genaue semantische Segmentierung. Ein verbreitetes Vorgehen zur Leistungssteigerung ist das Erreichen von hochaufgelösten Merkmalskarten mit starker semantischer Repräsentation. Zwei Strategien werden häufig angewendet: dilatierte Faltungen (atrous convolutions) und die Fusion von Merkmalspyramiden, wobei beide entweder rechenaufwendig oder ineffektiv sind. Inspiriert durch den optischen Fluss zur Bewegungsausrichtung zwischen benachbarten Videobildern, schlagen wir ein Flussausrichtungsmodul (Flow Alignment Module, FAM) vor, um den semantischen Fluss zwischen den Merkmalskarten benachbarter Ebenen zu lernen und hochwertige Merkmale effektiv und effizient auf hochaufgelöste Merkmale zu übertragen. Darüber hinaus zeigt die Integration unseres FAM in eine Standard-Merkmalspyramidenstruktur eine überlegene Leistung im Vergleich zu anderen Echtzeitmethoden, auch bei leichten Backbone-Netzwerken wie ResNet-18 und DFNet. Um den Inferenzprozess weiter zu beschleunigen, präsentieren wir außerdem ein neues Gated Dual Flow Alignment Modul, das direkt die Ausrichtung von hochaufgelösten Merkmalskarten und niedrigaufgelösten Merkmalskarten ermöglicht. Wir bezeichnen das verbesserte Netzwerk als SFNet-Lite. Ausführliche Experimente wurden auf mehreren anspruchsvollen Datensätzen durchgeführt, deren Ergebnisse die Effektivität sowohl des SFNet als auch des SFNet-Lite zeigen. Insbesondere erreicht die SFNet-Lite-Serie bei der Verwendung des Cityscapes-Testdatensatzes einen mIoU-Wert von 80,1 % bei einer Geschwindigkeit von 60 FPS unter Verwendung des ResNet-18-Backbones sowie einen mIoU-Wert von 78,8 % bei einer Geschwindigkeit von 120 FPS unter Verwendung des STDC-Backbones auf einem RTX-3090-GPU. Des Weiteren vereinigen wir vier anspruchsvolle Fahrzeugdatensätze zu einem großen Datensatz, den wir als Unified Driving Segmentation (UDS) bezeichnen. Dieser enthält vielfältige Informationen bezüglich Domäne und Stil. Wir vergleichen mehrere repräsentative Arbeiten auf dem UDS-Datensatz. Sowohl SFNet als auch SFNet-Lite erzielen immer noch die beste Kompromisslösung zwischen Geschwindigkeit und Genauigkeit auf UDS, was diesen Netzen als starke Baseline in einem solch herausfordernden Szenario dient. Der Code und die Modelle sind öffentlich zugänglich unter https://github.com/lxtGH/SFSegNets.