RefineNet: Mehrweg-Verfeinerungsnetzwerke für hochaufgelöste semantische Segmentierung

Kürzlich haben sehr tiefe Faltungsneuronale Netze (CNNs) in der Objekterkennung außergewöhnliche Leistungen gezeigt und sind auch die erste Wahl für dichte Klassifizierungsprobleme wie die semantische Segmentierung geworden. Allerdings führen wiederholte Abtastoperationen wie Pooling oder Faltungsstriding in tiefen CNNs zu einem erheblichen Rückgang der ursprünglichen Bildauflösung. Hier stellen wir RefineNet vor, ein generisches Mehrpfad-Verfeinerungsnetzwerk, das alle während des Abtastraktes verfügbaren Informationen explizit nutzt, um durch langreichweitige Residualverbindungen eine hochaufgelöste Vorhersage zu ermöglichen. Auf diese Weise können die tieferen Schichten, die hochwertige semantische Merkmale erfassen, direkt mit feinkörnigen Merkmalen aus früheren Faltungen verfeinert werden. Die einzelnen Komponenten von RefineNet verwenden Residualverbindungen im Sinne der Identitätsabbildung, was effektives end-to-end-Training ermöglicht. Darüber hinaus führen wir das verkettete residuale Pooling ein, das reichen Hintergrundkontext auf effiziente Weise erfasst. Wir führen umfassende Experimente durch und erreichen neue Standarte am neuesten Stand der Technik auf sieben öffentlichen Datensätzen. Insbesondere erreichen wir einen Intersection-over-Union-Wert von 83,4 auf dem anspruchsvollen PASCAL VOC 2012-Datensatz, was bislang das beste gemeldete Ergebnis ist.