Raumlich tief: Räumliche CNN für das Verständnis von Verkehrsszenen

Faltungsschichtneuronale Netze (CNNs) werden in der Regel durch das Schichtenweise Stapeln von Faltungsoperationen aufgebaut. Obwohl CNNs eine starke Fähigkeit zur Extraktion von Semantik aus rohen Pixeln gezeigt haben, ist ihre Kapazität, räumliche Beziehungen zwischen Pixeln über die Zeilen und Spalten eines Bildes hinweg zu erfassen, nicht vollständig ausgeleuchtet. Diese Beziehungen sind wichtig, um semantische Objekte mit starken Formvorgaben aber schwachen Erscheinungskohärenzen zu lernen, wie zum Beispiel Verkehrslinien, die oft verdeckt oder gar nicht auf der Fahrbahnfläche eingezeichnet sind, wie in Abbildung 1 (a) dargestellt. In dieser Arbeit schlagen wir ein räumliches CNN (SCNN) vor, das traditionelle tiefere Schicht-für-Schicht-Faltungen auf schichtweise Faltungen innerhalb der Merkmalskarten verallgemeinert und damit Nachrichtenaustausch zwischen Pixeln über Zeilen und Spalten in einer Schicht ermöglicht. Ein solches SCNN ist besonders geeignet für langgezogene kontinuierliche Formstrukturen oder große Objekte mit starken räumlichen Beziehungen aber weniger Erscheinungshinweisen, wie Verkehrslinien, Masten und Wände. Wir wenden SCNN auf einen neu veröffentlichten sehr anspruchsvollen Datensatz zur Erkennung von Verkehrslinien sowie den Cityscapes-Datensatz an. Die Ergebnisse zeigen, dass SCNN die räumlichen Beziehungen für strukturierte Ausgaben lernen kann und die Leistung erheblich verbessert. Wir demonstrieren, dass SCNN im Datensatz zur Erkennung von Verkehrslinien sowohl das rekurrente neuronale Netzwerk (RNN)-basierte ReNet als auch das MRF+CNN (MRFNet) um 8,7 % und 4,6 % respektive übertreffen kann. Darüber hinaus belegte unser SCNN den ersten Platz bei der TuSimple-Benchmark-Herausforderung zur Erkennung von Verkehrslinien mit einer Genauigkeit von 96,53 %.