Semantische Bildsegmentierung durch tiefes Parsing-Netzwerk

Dieses Papier behandelt die semantische Bildsegmentierung durch die Einbeziehung reicher Informationen in das Markov-Zufallsfeld (MRF), einschließlich hochwertiger Relationen und Mischungen von Labelkontexten. Im Gegensatz zu früheren Arbeiten, die MRFs mit iterativen Algorithmen optimiert haben, lösen wir das MRF durch den Vorschlag eines Faltungsneuronalen Netzes (CNN), nämlich des Deep Parsing Networks (DPN), welches eine deterministische End-to-End-Berechnung in einem einzigen Vorwärtsdurchgang ermöglicht. Insbesondere erweitert DPN eine moderne CNN-Architektur zur Modellierung unärer Terme, und zusätzliche Schichten werden sorgfältig entwickelt, um den Mean-Field-Algorithmus (MF) für paarweise Terme zu approximieren. Es verfügt über mehrere ansprechende Eigenschaften. Erstens unterscheidet sich DPN von jüngsten Arbeiten, die CNN und MRF kombinierten, bei denen während der Rückpropagation für jedes Trainingsbild viele Iterationen des MF erforderlich waren; DPN ist in der Lage, hohe Leistung durch die Approximation einer einzelnen MF-Iteration zu erzielen. Zweitens repräsentiert DPN verschiedene Arten von paarweisen Termen, was viele bestehende Arbeiten als Spezialfälle darstellt. Drittens erleichtert DPN die Parallelisierung und Beschleunigung des MF auf der Grafikkarte (GPU). Das DPN wurde gründlich anhand des PASCAL VOC 2012-Datensatzes evaluiert, wobei ein einzelnes DPN-Modell eine neue Top-Leistung in Bezug auf die Segmentierungsgenauigkeit erzielte.