CASENet: Tiefes kategoriebewusstes semantisches Kantenerkennung

Rand- und Kantendetektion sind äußerst nützlich für die Verbesserung einer Vielzahl von Visionssystemen, darunter semantische Segmentierung, Objekterkennung, Stereoanalyse und die Generierung von Objektvorschlägen. In jüngerer Zeit wurde das Problem der Kantendetektion erneut aufgegriffen und mit tiefem Lernen wurden erhebliche Fortschritte gemacht. Während die klassische Kantendetektion an sich eine herausfordernde binäre Aufgabe ist, stellt die kategoriebewusste semantische Kantendetektung ein noch schwierigeres Mehrfachetikettierungsproblem dar. Wir modellieren das Problem so, dass jeder Kantenpixel mehreren Klassen zugeordnet werden kann, da sie in Konturen oder Knotenpunkten vorkommen können, die zwei oder mehr semantischen Klassen angehören. Zu diesem Zweck schlagen wir eine neuartige end-to-end tiefe semantische Kantenerkennungsarchitektur vor, die auf ResNet basiert und eine neue Skip-Layer-Architektur verwendet, bei der kategoriebezogene Kantenaktivierungen in der obersten Faltungsschicht mit demselben Satz von unteren Schichtmerkmalen geteilt und fusioniert werden. Anschließend stellen wir eine Mehrfachetikettierungs-Fehlerfunktion (loss function) vor, um die fusionierten Aktivierungen zu überwachen. Wir zeigen, dass unsere vorgeschlagene Architektur dieses Problem durch bessere Leistung verbessert und dass wir den aktuellen Stand der Technik in der semantischen Kantendetektion um einen großen Vorsprung auf Standarddatensätzen wie SBD und Cityscapes übertreffen.