Asymmetrische nicht-lokale Neuronale Netze für semantische Segmentierung

Das nicht-lokale Modul wird als besonders nützliche Technik für die semantische Segmentierung angesehen, obwohl es wegen seiner hohen Rechenanforderungen und des intensiven GPU-Speicherbedarfs kritisiert wird. In dieser Arbeit stellen wir das asymmetrische nicht-lokale neuronale Netzwerk (Asymmetric Non-local Neural Network) zur semantischen Segmentierung vor, das zwei herausragende Komponenten aufweist: den asymmetrischen Pyramiden-nicht-lokalen Block (Asymmetric Pyramid Non-local Block, APNB) und den asymmetrischen Fusions-nicht-lokalen Block (Asymmetric Fusion Non-local Block, AFNB). Der APNB integriert ein Pyramidenabtastungsmodul in den nicht-lokalen Block, um die Rechenleistung und Speicherverbrauch erheblich zu reduzieren, ohne dabei die Leistungsfähigkeit zu beeinträchtigen. Der AFNB ist eine Anpassung des APNBs und dient der Fusion von Merkmalen verschiedener Ebenen unter Berücksichtigung langer Abhängigkeiten, was die Leistung erheblich verbessert. Ausführliche Experimente anhand von Benchmarks für semantische Segmentierung belegen die Effektivität und Effizienz unserer Arbeit. Insbesondere erreichen wir einen Stand der Technik von 81,3 mIoU auf dem Testdatensatz von Cityscapes. Bei einer Eingabe von 256x128 Pixeln ist der APNB etwa sechs Mal schneller als ein nicht-lokaler Block auf der GPU und verbraucht rund 28 Mal weniger GPU-Speicher. Der Quellcode ist verfügbar unter: https://github.com/MendelXu/ANN.git.