HyperAIHyperAI
vor 2 Monaten

Encoder-Decoder mit dilatierter separabler Faltung für semantische Bildsegmentierung

Liang-Chieh Chen; Yukun Zhu; George Papandreou; Florian Schroff; Hartwig Adam
Encoder-Decoder mit dilatierter separabler Faltung für semantische Bildsegmentierung
Abstract

Raumliches Pyramiden-Pooling-Modul oder Encoder-Decoder-Struktur werden in tiefen neuronalen Netzen für die semantische Segmentierung eingesetzt. Die erstgenannten Netze können durch das Auswerten der eingehenden Merkmale mit Filtern oder Pooling-Operationen bei verschiedenen Abtastfrequenzen und effektiven Sichtfeldern multiskalige kontextuelle Informationen kodieren, während die letzteren Netze durch schrittweises Wiederherstellen der räumlichen Informationen scharfe Objektrandlinien erfassen können. In dieser Arbeit schlagen wir vor, die Vorteile beider Methoden zu kombinieren. Insbesondere erweitert unser vorgeschlagenes Modell, DeepLabv3+, DeepLabv3 durch Hinzufügen eines einfachen aber effektiven Decoder-Moduls zur Verfeinerung der Segmentierungsergebnisse, insbesondere entlang von Objektrandlinien. Wir untersuchen ferner das Xception-Modell und wenden die tiefgangseparierende Faltung sowohl auf das Atrous-Spatial-Pyramid-Pooling als auch auf den Decoder an, was zu einem schnelleren und leistungsfähigeren Encoder-Decoder-Netz führt. Wir zeigen die Effektivität des vorgeschlagenen Modells anhand der Datensätze PASCAL VOC 2012 und Cityscapes, wobei wir ohne jede Nachbearbeitung eine Testmenge-Leistung von 89,0 % und 82,1 % erreichen. Unser Artikel wird ergänzt durch eine öffentlich zugängliche Referenzimplementierung der vorgeschlagenen Modelle in Tensorflow unter \url{https://github.com/tensorflow/models/tree/master/research/deeplab}.

Encoder-Decoder mit dilatierter separabler Faltung für semantische Bildsegmentierung | Neueste Forschungsarbeiten | HyperAI