Verstehen der Faltung für die semantische Segmentierung

Neuere Fortschritte im Bereich des Deep Learnings, insbesondere tiefgreifende Faltungsneuronale Netze (CNNs), haben zu erheblichen Verbesserungen im Vergleich zu früheren Systemen für die semantische Segmentierung geführt. In diesem Artikel zeigen wir, wie man durch die Manipulation von faltungsbasierten Operationen, die sowohl theoretischen als auch praktischen Wert haben, die pixelgenaue semantische Segmentierung verbessern kann. Erstens entwickeln wir eine dicht aufsamplende Faltung (DUC), um eine pixelgenaue Vorhersage zu generieren, die in der Lage ist, detailliertere Informationen zu erfassen und zu dekodieren, die bei der bilinearen Aufsampling-Methode in der Regel fehlen. Zweitens schlagen wir einen hybriden dilatierten Faltungsrahmen (HDC) in der Kodierungsphase vor. Dieser Rahmen 1) vergrößert effektiv das Rezeptivfeld (RF) des Netzwerks, um globale Informationen zu aggregieren; 2) mildert das von uns als "Rasterproblem" bezeichnete Phänomen, das durch den Standard-dilatierten Faltungsprozess verursacht wird. Wir evaluieren unsere Ansätze gründlich am Cityscapes-Datensatz und erreichen zum Zeitpunkt der Abgabe ein erstklassiges Ergebnis von 80,1 % mIOU im Testdatensatz. Zudem erzielen wir erstklassige Gesamtergebnisse beim KITTI-Straßenabschätzungsbenchmark und bei der PASCAL VOC2012-Segmentierungsaufgabe. Unser Quellcode ist unter https://github.com/TuSimple/TuSimple-DUC abrufbar.