Dual Graph Convolutional Network für die semantische Segmentierung

Die Ausnutzung von langreichweitigen kontextuellen Informationen ist entscheidend für pixelweise Vorhersageaufgaben wie die semantische Segmentierung. Im Gegensatz zu früheren Ansätzen, die mehrskalige Merkmalsfusion oder dilatierte Faltungen verwenden, schlagen wir ein neuartiges graphenbasiertes Faltungsnetzwerk (GCN) vor, um dieses Problem anzugehen. Unser Dual Graph Convolutional Network (DGCNet) modelliert den globalen Kontext der Eingabemerkmale, indem es zwei orthogonale Graphen innerhalb eines einheitlichen Rahmens abbildet. Der erste Komponente erfasst räumliche Beziehungen zwischen Pixeln im Bild, während die zweite Komponente Interdependenzen entlang der Kanaldimensionen der Merkmalskarte modelliert. Dies erfolgt effizient durch Projektion der Merkmale in einen neuen, niedrigdimensionalen Raum, in dem alle paarweisen Wechselwirkungen modelliert werden können, gefolgt von einer erneuten Projektion in den ursprünglichen Raum. Unser einfacher Ansatz bietet erhebliche Vorteile gegenüber einer starken Baseline und erreicht state-of-the-art Ergebnisse sowohl auf dem Cityscapes-Datensatz (82,0 % mittlere IoU) als auch auf dem Pascal Context-Datensatz (53,7 % mittlere IoU). Der Quellcode und die Modelle werden zur Förderung weiterer Forschung bereitgestellt (\url{https://github.com/lxtGH/GALD-DGCNet}).