ReSeg: Ein Modell auf Basis von rekurrenten neuronalen Netzen für semantische Segmentierung

Wir schlagen eine strukturierte Vorhersagearchitektur vor, die lokale generische Merkmale nutzt, die durch Faltungsneuronale Netze (Convolutional Neural Networks) extrahiert werden, und die Fähigkeit von Rekurrenten Neuronalen Netzen (Recurrent Neural Networks, RNN), ferne Abhängigkeiten zu erfassen. Die vorgeschlagene Architektur, ReSeg genannt, basiert auf dem kürzlich eingeführten ReNet-Modell für Bildklassifizierung. Wir modifizieren und erweitern es, um die anspruchsvollere Aufgabe der semantischen Segmentierung zu bewältigen. Jede ReNet-Schicht besteht aus vier RNNs, die das Bild sowohl horizontal als auch vertikal in beide Richtungen durchlaufen, Patches oder Aktivierungen kodieren und relevante globale Informationen bereitstellen. Zudem werden ReNet-Schichten auf vorab trainierten faltenden Schichten gestapelt, wodurch sie von generischen lokalen Merkmalen profitieren. Nachfolgende Upsampling-Schichten ermöglichen es den ReNet-Schichten, die ursprüngliche Bildauflösung in den endgültigen Vorhersagen wiederherzustellen. Die vorgeschlagene ReSeg-Architektur ist effizient, flexibel und geeignet für eine Vielzahl von semantischen Segmentierungsaufgaben. Wir evaluieren ReSeg anhand mehrerer weit verbreiteter Datensätze für semantische Segmentierung: Weizmann Horse, Oxford Flower und CamVid; dabei erreichen wir Stand-der-Technik-Leistungen. Die Ergebnisse zeigen, dass ReSeg als geeignete Architektur für semantische Segmentierungsaufgaben fungieren kann und möglicherweise weitere Anwendungen in anderen strukturierten Vorhersageproblemen hat. Der Quellcode und die Hyperparameter des Modells sind unter https://github.com/fvisin/reseg verfügbar.