Die Ausbildung von Faltungsnetzen auf mehreren heterogenen Datensätzen für die semantische Segmentierung von Straßenszenen

Wir schlagen ein Faltungsnetzwerk mit hierarchischen Klassifizierern für die semantische Segmentierung auf Pixelbasis vor, das in der Lage ist, auf mehreren, heterogenen Datensätzen trainiert zu werden und deren semantische Hierarchie auszunutzen. Unser Netzwerk ist das erste, das gleichzeitig auf drei verschiedenen Datensätzen aus dem Bereich intelligenter Fahrzeuge trainiert wird, nämlich Cityscapes, GTSDB und Mapillary Vistas. Es kann verschiedene Semantik-Level, Klassenungleichgewichte und unterschiedliche Annotationstypen verarbeiten, wie dichte Pixel- und spärliche Bounding-Box-Labels. Wir bewerten unseren hierarchischen Ansatz durch einen Vergleich mit flachen, nicht-hierarchischen Klassifizierern und zeigen Verbesserungen der mittleren Pixelgenauigkeit um 13,0 % für die Cityscapes-Klassen, 2,4 % für die Vistas-Klassen und 32,3 % für die GTSDB-Klassen. Unsere Implementierung erreicht Inferenzraten von 17 fps bei einer Auflösung von 520x706 für 108 Klassen auf einem GPU.