HyperAIHyperAI
vor 2 Monaten

Duales Aufmerksamkeitsnetzwerk für Szensegmentierung

Jun Fu; Jing Liu; Haijie Tian; Yong Li; Yongjun Bao; Zhiwei Fang; Hanqing Lu
Duales Aufmerksamkeitsnetzwerk für Szensegmentierung
Abstract

In dieser Arbeit adressieren wir die Aufgabe der Szene-Segmentierung durch das Erfassen reicher kontextueller Abhängigkeiten basierend auf dem Selbst-Aufmerksamkeitsmechanismus (self-attention mechanism). Im Gegensatz zu früheren Arbeiten, die Kontexte durch die Fusion von mehrskaligen Merkmalen erfassen, schlagen wir ein Duales Aufmerksamkeitsnetzwerk (Dual Attention Networks, DANet) vor, um lokale Merkmale mit ihren globalen Abhängigkeiten anpassungsfähig zu integrieren. Insbesondere ergänzen wir zwei Arten von Aufmerksamkeitsmodulen über traditionelle dilatierte FCNs (Fully Convolutional Networks), welche die semantischen Interdependenzen in den räumlichen und kanalbezogenen Dimensionen jeweils modellieren. Das Positionsaufmerksamkeitsmodul aggregiert selektiv die Merkmale an jeder Position durch eine gewichtete Summe der Merkmale aller Positionen. Ähnliche Merkmale sind unabhängig von ihrer Distanz miteinander verbunden. Gleichzeitig betont das Kanalaufmerksamkeitsmodul selektiv interdependente Kanalkarten, indem es assozierte Merkmale unter allen Kanalkarten integriert. Wir summieren die Ausgaben der beiden Aufmerksamkeitsmodule, um die Merkmalsrepräsentation weiter zu verbessern, was präzisere Segmentierungsergebnisse fördert. Wir erzielen neue Standartwerte für die Segmentationsleistung auf drei anspruchsvollen Szenensegmentierung-Datensätzen, nämlich Cityscapes, PASCAL Context und COCO Stuff Datensatz. Insbesondere erreichen wir ohne Verwendung grober Daten einen Mean-IoU-Wert von 81,5 % im Testset von Cityscapes. Der Code und das trainierte Modell werden öffentlich zur Verfügung gestellt unter https://github.com/junfu1115/DANet.