DSNet: Eine Neue Methode zur Verwendung von Atrous-Konvolutionen in der Semantischen Segmentierung

Dilatierte Faltungen werden als Methode eingesetzt, um das Rezeptivfeld bei semantischer Segmentierung zu erweitern. In früheren Arbeiten zur semantischen Segmentierung wurde diese Methode jedoch selten in den oberflächlichen Schichten des Modells angewendet. Wir überarbeiten die Gestaltung von dilatierten Faltungen in modernen Faltungsneuronalen Netzen (CNNs) und zeigen, dass der Ansatz, große Kerne für dilatierte Faltungen zu verwenden, ein leistungsfähigeres Paradigma sein könnte. Wir schlagen drei Richtlinien vor, um dilatierte Faltungen effizienter anzuwenden. Auf Basis dieser Richtlinien stellen wir DSNet vor, eine Dual-Branch CNN-Architektur, die dilatierte Faltungen sowohl in den oberflächlichen Schichten der Modellarchitektur integriert als auch fast den gesamten Encoder auf ImageNet vortrainiert, um bessere Ergebnisse zu erzielen. Um die Effektivität unseres Ansatzes zu demonstrieren, erreichen unsere Modelle einen neuen Stand der Technik im Spannungsfeld zwischen Genauigkeit und Geschwindigkeit auf den Datensätzen ADE20K, Cityscapes und BDD. Speziell erreicht DSNet auf ADE20K eine mittlere Übereinstimmung (mIOU) von 40,0 % mit einer Inferenzgeschwindigkeit von 179,2 FPS und auf Cityscapes eine mIOU von 80,4 % bei einer Geschwindigkeit von 81,9 FPS. Der Quellcode und die Modelle sind unter Github verfügbar: https://github.com/takaniwa/DSNet.