Ein Ansatz zur Curriculumbasierten Domänenanpassung für die semantische Segmentierung von urbanen Szenen

In den letzten fünf Jahren haben Faltungsneuronale Netze (CNNs) bei der semantischen Segmentierung, einer der zentralen Aufgaben in vielen Anwendungen wie autonomem Fahren und erweiterter Realität, überzeugende Ergebnisse erzielt. Allerdings erfordert das Training von CNNs eine beträchtliche Menge an Daten, die schwierig zu sammeln und zeitaufwändig zu annotieren sind. Kürzliche Fortschritte im Bereich der Computergrafik ermöglichen es, CNNs auf fotorealistischen synthetischen Bildern mit computergenerierten Annotationen zu trainieren. Trotzdem behindert die Domänenunterschiede zwischen realen Bildern und synthetischen Daten die Leistungsfähigkeit der Modelle. Daher schlagen wir einen curriculumbasierten Lernalgorithmus vor, um den Domänenunterschied bei der semantischen Segmentierung von städtischen Szenen zu minimieren. Die curriculumbasierte Domänenanpassung löst zunächst einfache Aufgaben, um notwendige Eigenschaften des Zielbereichs abzuleiten; insbesondere besteht die erste Aufgabe darin, globale Labelverteilungen über Bilder und lokale Verteilungen über Landmark-Superpixel zu lernen. Diese Eigenschaften lassen sich leicht abschätzen, da Bilder von städtischen Szenen starke Eigenheiten aufweisen (z.B. die Größe und räumlichen Beziehungen von Gebäuden, Straßen, Autos usw.). Anschließend trainieren wir ein Segmentierungsnetzwerk und regulieren dessen Vorhersagen im Zielbereich so, dass sie den abgeleiteten Eigenschaften folgen. In Experimenten übertreffen unsere Methode die Baseline-Modelle auf zwei Datensätzen und zwei Backbone-Netzwerken. Wir berichten auch umfangreiche Abstraktionsstudien unserer Herangehensweise.