HyperAIHyperAI
vor 17 Tagen

Aufmerksamkeitsgesteuerte verkettete Kontextaggregation für die semantische Segmentierung

Quan Tang, Fagui Liu, Tong Zhang, Jun Jiang, Yu Zhang
Aufmerksamkeitsgesteuerte verkettete Kontextaggregation für die semantische Segmentierung
Abstract

Die Art und Weise, wie Merkmale in Fully Convolutional Networks propagieren, ist von entscheidender Bedeutung, um kontextuell vielschichtige Informationen zu erfassen und präzise Segmentierungsmasken zu erzeugen. In dieser Arbeit wird ein neuartiges serienparalleles Hybridparadigma vorgestellt, das als Chained Context Aggregation Module (CAM) bezeichnet wird, um die Merkmalspropagation zu diversifizieren. CAM gewinnt Merkmale verschiedener räumlicher Skalen durch kettenförmig verbundene, leiterartige Informationsflüsse und fusioniert diese in einem zweistufigen Prozess, nämlich Vor-Fusion und Nach-Fusion. Der serielle Fluss erhöht kontinuierlich die Empfindlichkeitsfelder der Ausgabeneuronen, während die parallelen Flüsse unterschiedliche, regionenbasierte Kontextinformationen kodieren. Jeder Informationsfluss stellt einen flachen Encoder-Decoder mit geeigneten Downsampling-Faktoren dar, um kontextuelle Informationen ausreichend zu erfassen. Darüber hinaus integrieren wir in CAM ein Aufmerksamkeitsmodell, um die Merkmals-Nach-Fusion gezielt zu steuern. Aufbauend auf diesen Entwicklungen konstruieren wir das Chained Context Aggregation Network (CANet), das einen asymmetrischen Decoder verwendet, um präzise räumliche Details der Vorhersagemasken wiederherzustellen. Wir führen umfangreiche Experimente auf sechs anspruchsvollen Datensätzen durch, darunter Pascal VOC 2012, Pascal Context, Cityscapes, CamVid, SUN-RGBD und GATECH. Die Ergebnisse belegen, dass CANet eine state-of-the-art-Leistung erzielt.