HyperAIHyperAI
vor 17 Tagen

Szenen-Segmentation mit einem dualen relationsbewussten Aufmerksamkeitsnetzwerk

{Hanqing Lu, Yongjun Bao, Jie Jiang, Jing Liu, Yong Li, Jun Fu}
Abstract

In diesem Artikel stellen wir ein Dual Relation-aware Attention Network (DRANet) zur Lösung der Aufgabe der Szenensegmentierung vor. Die effiziente Nutzung von Kontextinformationen ist entscheidend für die pixelgenaue Erkennung. Um dieses Problem anzugehen, erfassen wir kontextuelle Informationen adaptiv mittels eines relation-aware Attention-Mechanismus. Insbesondere fügen wir zwei Arten von Attention-Modulen oberhalb eines dilatierten vollständig konvolutionellen Netzes (FCN) hinzu, die jeweils die kontextuellen Abhängigkeiten in räumlicher und kanalweiser Dimension modellieren. In diesen Attention-Modulen setzen wir einen Self-Attention-Mechanismus ein, um semantische Zusammenhänge zwischen beliebigen Paaren von Pixeln oder Kanälen zu erfassen. Jeder Pixel oder Kanal kann dabei kontextuelle Informationen adaptiv aus allen anderen Pixeln oder Kanälen aggregieren, basierend auf deren Korrelationen. Um die hohen Kosten an Rechenleistung und Speicher, die durch die oben genannte Paarweisen-Assoziation verursacht werden, zu verringern, entwickeln wir zudem zwei Arten kompakter Attention-Module. In diesen kompakten Modulen wird jeder Pixel oder Kanal nur mit einer geringen Anzahl von Sammelzentren assoziiert und erhält entsprechende Kontextaggregation über diese Zentren. Gleichzeitig integrieren wir einen cross-level Gating-Decoder, um räumliche Details selektiv zu verstärken und die Leistung des Netzwerks zu verbessern. Wir führen umfangreiche Experimente durch, um die Wirksamkeit unseres Netzwerks zu validieren, und erreichen auf vier anspruchsvollen Datensätzen zur Szenensegmentierung – nämlich Cityscapes, ADE20K, PASCAL Context und COCO Stuff – neue state-of-the-art-Ergebnisse. Insbesondere erreichen wir auf dem Testset von Cityscapes eine Mean IoU von 82,9 %, ohne zusätzliche grob annotierte Daten zu verwenden.