Resolution-bewusstes Design von Atrous-Raten für semantische Segmentierungsnetze

DeepLab ist ein weit verbreitetes tiefes neuronales Netzwerk für semantische Segmentierung, dessen Erfolg auf seine parallele Architektur namens Atrous Spatial Pyramid Pooling (ASPP) zurückgeführt wird. ASPP verwendet mehrere Atrous-Konvolutionen mit unterschiedlichen Atrous-Raten, um sowohl lokale als auch globale Informationen zu extrahieren. Allerdings werden feste Werte für die Atrous-Raten im ASPP-Modul verwendet, was die Größe seines Sichtfeldes einschränkt. Grundsätzlich sollte die Atrous-Rate ein Hyperparameter sein, der je nach Zielaufgabe oder Datensatz die Größe des Sichtfeldes anpasst. Die Manipulation der Atrous-Rate jedoch unterliegt keinerlei Richtlinien. Diese Studie schlägt praktische Richtlinien zur Ermittlung einer optimalen Atrous-Rate vor. Zunächst wird ein effektives Rezeptionsfeld für die semantische Segmentierung eingeführt, um das interne Verhalten von Segmentierungsnetzwerken zu analysieren. Wir stellten fest, dass die Verwendung des ASPP-Moduls einen spezifischen Muster im effektiven Rezeptionsfeld hervorbrachte, das daraufhin untersucht wurde, um den zugrunde liegenden Mechanismus des Moduls zu enthüllen. Entsprechend leiten wir praktische Richtlinien zur Ermittlung der optimalen Atrous-Rate ab, die auf der Basis der Eingabebildgröße gesteuert werden sollten. Im Vergleich zu anderen Werten verbesserte die Verwendung der optimalen Atrous-Rate konsistent die Segmentierungsergebnisse in mehreren Datensätzen, darunter STARE, CHASE_DB1, HRF, Cityscapes und iSAID-Datensätze.