HyperAIHyperAI
vor 2 Monaten

Das Hundert-Schichten-Tiramisu: Vollkonvolutive DenseNets für die semantische Segmentierung

Simon Jégou; Michal Drozdzal; David Vazquez; Adriana Romero; Yoshua Bengio
Das Hundert-Schichten-Tiramisu: Vollkonvolutive DenseNets für die semantische Segmentierung
Abstract

Zustandsaktuelle Ansätze für die semantische Bildsegmentierung basieren auf Faltungsneuronalen Netzen (CNNs). Die typische Segmentierungsarchitektur besteht aus (a) einem Downsampling-Pfad, der grobe semantische Merkmale extrahiert, gefolgt von (b) einem Upsampling-Pfad, der darauf trainiert ist, die Auflösung des Eingangsbildes am Ausgang des Modells wiederherzustellen und optional (c) einem Post-Processing-Modul (z.B. bedingten Markowfeldern) zur Verfeinerung der Modellvorhersagen.Kürzlich hat eine neue CNN-Architektur, Densely Connected Convolutional Networks (DenseNets), ausgezeichnete Ergebnisse bei Bildklassifizierungsaufgaben gezeigt. Das Konzept von DenseNets basiert auf der Beobachtung, dass ein Netzwerk genauer und einfacher zu trainieren ist, wenn jede Schicht direkt mit jeder anderen Schicht in vorwärtsgerichteter Weise verbunden ist.In dieser Arbeit erweitern wir DenseNets, um das Problem der semantischen Segmentierung anzugehen. Wir erzielen zustandsaktuelle Ergebnisse auf Benchmark-Datensätzen für städtische Szenen wie CamVid und Gatech, ohne zusätzliche Post-Processing-Module oder Vortraining. Darüber hinaus verfügt unser Ansatz dank einer intelligenten Modellkonstruktion über deutlich weniger Parameter als aktuell veröffentlichte beste Einträge für diese Datensätze.Der Code zur Wiederholung der Experimente ist hier verfügbar: https://github.com/SimJeg/FC-DenseNet/blob/master/train.py