Bereichsbasierte semantische Segmentierung mit end-to-end Training

Wir schlagen eine neuartige Methode für die semantische Segmentierung vor, bei der es darum geht, jedes Pixel in einem Bild mit einer semantischen Klasse zu beschriften. Unsere Methode kombiniert die Vorteile der beiden Hauptparadigmen. Methoden basierend auf Regionenklassifikation bieten eine angemessene räumliche Unterstützung für Erscheinungsmaße, operieren aber in der Regel in zwei getrennten Stufen, von denen keine am Ende des Pipelines die Pixelbeschriftungsleistung als Ziel hat. Neuere vollkonvolutive Methoden sind in der Lage, ein End-to-End-Training für die endgültige Pixelbeschriftung durchzuführen, greifen jedoch auf feste Patchs als räumliche Unterstützung zurück. Wir zeigen, wie moderne regionbasierte Ansätze modifiziert werden können, um ein End-to-End-Training für die semantische Segmentierung zu ermöglichen. Dies wird durch eine differenzierbare Region-zu-Pixel-Schicht und eine differenzierbare freiformige Region-of-Interest-Pooling-Schicht (Region of Interest) erreicht. Unsere Methode verbessert den Stand der Technik hinsichtlich der klassenmittelwertigen Genauigkeit um 64,0 % auf SIFT Flow und 49,9 % auf PASCAL Context und ist insbesondere an Objekträndern sehr genau.