Netzwerk mit mehreren Rezeptivfeldern für semantische Segmentierung

Die semantische Segmentierung ist eine zentrale Aufgabe im Bereich des Computersehens, bei der jedem Pixel eines Bildes eine Kategoriebezeichnung zugewiesen wird. Trotz erheblicher Fortschritte in letzter Zeit leiden die meisten bestehenden Methoden weiterhin unter zwei herausfordernden Problemen: Erstens sind die Größen von Objekten und Materialien (stuff) in einem Bild äußerst variabel, was die Einbeziehung von Multi-Skalen-Features in vollständig konvolutionellen Netzwerken (FCNs) erfordert; zweitens sind Pixel in der Nähe oder an den Grenzen von Objekten bzw. Materialien aufgrund der inhärenten Schwächen konvolutioneller Netzwerke schwer zu klassifizieren. Um das erste Problem anzugehen, schlagen wir ein neues Multi-Rezeptivfeld-Modul (MRFM) vor, das explizit Multi-Skalen-Features berücksichtigt. Für das zweite Problem entwickeln wir eine kantenbewusste Verlustfunktion, die effektiv die Grenzen von Objekten bzw. Materialien unterscheidet. Mit diesen beiden Innovationen erreicht unser Multi-Rezeptivfeld-Netzwerk neue Sollbruchstellen auf zwei weit verbreiteten Benchmark-Datensätzen für die semantische Segmentierung. Konkret erzielen wir eine mittlere Intersection-over-Union (mIoU) von 83,0 auf dem Cityscapes-Datensatz und 88,4 mIoU auf dem Pascal VOC2012-Datensatz.