HyperAIHyperAI
vor 2 Monaten

SERNet-Former: Semantische Segmentierung durch effizientes Residualnetzwerk mit Aufmerksamkeitsverstärkenden Gattern und Aufmerksamkeitsfusionsnetzwerken

Erisen, Serdar
SERNet-Former: Semantische Segmentierung durch effizientes Residualnetzwerk mit Aufmerksamkeitsverstärkenden Gattern und Aufmerksamkeitsfusionsnetzwerken
Abstract

Die Verbesserung der Effizienz modernster Methoden in der semantischen Segmentierung erfordert die Überwindung steigender Rechenkosten sowie Probleme wie das Füllen semantischer Informationen aus globalen und lokalen Kontexten. Auf Basis des jüngsten Erfolgs und der Herausforderungen, denen Faltungsneuronale Netze (CNNs) bei der semantischen Segmentierung begegnen, schlägt diese Forschung eine Encoder-Decoder-Architektur mit einem einzigartigen effizienten Residualnetzwerk, dem Efficient-ResNet, vor. Attention-Boosting-Gates (AbGs) und Attention-Boosting-Module (AbMs) werden eingesetzt, um äquivariante und featurebasierte semantische Informationen mit den entsprechenden Größen des Ausgabekontexts des effizienten Residualnetzwerks im Encoder zu fusionieren. Demgegenüber wird das Decoder-Netzwerk mit zusätzlichen Attention-Fusion-Netzwerken (AfNs), inspiriert von AbM, entwickelt. AfNs sind darauf ausgelegt, die Effizienz bei der punktgenauen Konvertierung der semantischen Informationen durch die Hinzufügung weiterer Faltungsschichten im Decoder-Teil zu verbessern. Unser Netzwerk wurde auf den anspruchsvollen Datensätzen CamVid und Cityscapes getestet, und die vorgeschlagenen Methoden zeigen erhebliche Verbesserungen an den Residualnetzwerken. Nach bestem Wissen erreicht das entwickelte Netzwerk, SERNet-Former, state-of-the-art-Ergebnisse (84,62 % mittlerer IoU) auf dem CamVid-Datensatz und herausfordernde Ergebnisse (87,35 % mittlerer IoU) auf dem Cityscapes-Validierungsdatensatz.