vor 17 Tagen

Neubewertung der dilatierten Faltung für die Echtzeit-Semantische Segmentierung

Roland Gao

Abstract

Die Sichtweite (Field-of-View) ist ein entscheidender Metrik bei der Entwicklung von Modellen für die semantische Segmentierung. Um eine große Sichtweite zu erreichen, wählen herkömmliche Ansätze in der Regel eine schnelle Reduktion der räumlichen Auflösung, typischerweise durch durchschnittliche Pooling-Operationen oder Faltungsschichten mit einem Schrittweite von 2. Wir verfolgen einen alternativen Ansatz, indem wir im gesamten Backbone dilatierte Faltungen mit großen Dilatationsraten einsetzen, wodurch der Backbone seine Sichtweite einfach durch Anpassung der Dilatationsraten steuern kann. Wir zeigen, dass diese Vorgehensweise mit bestehenden Ansätzen wettbewerbsfähig ist. Um die dilatierten Faltungen effektiv nutzen zu können, leiten wir eine einfache obere Schranke für die Dilatationsrate her, um Lücken zwischen den Faltungsparametern zu vermeiden. Darüber hinaus entwickeln wir eine Blockstruktur, inspiriert von SE-ResNeXt, die zwei parallele $3\times3$-Faltungsschichten mit unterschiedlichen Dilatationsraten nutzt, um lokale Details besser zu bewahren. Die manuelle Feinabstimmung der Dilatationsraten für jeden Block kann jedoch schwierig sein. Daher stellen wir eine differenzierbare neuronale Architektursuche (differentiable Neural Architecture Search) vor, die den Gradientenabstieg nutzt, um die Dilatationsraten zu optimieren. Zusätzlich schlagen wir einen leichten Decoder vor, der lokale Informationen besser wiederherstellt als übliche Alternativen. Um die Wirksamkeit unseres Ansatzes zu demonstrieren, erreicht unser Modell RegSeg wettbewerbsfähige Ergebnisse auf den Echtzeit-Datensätzen Cityscapes und CamVid. Unter Verwendung einer T4-GPU mit gemischter Genauigkeit erzielt RegSeg auf dem Cityscapes-Testset eine mIOU von 78,3 bei 37 FPS und auf dem CamVid-Testset eine mIOU von 80,9 bei 112 FPS – jeweils ohne Vortrainings auf ImageNet.