FCNs in der Praxis: Pixelgenaue adversarische und regelbasierte Anpassung

Vollkonvolutive Modelle für dichte Vorhersage haben sich bei einer Vielzahl von visuellen Aufgaben als erfolgreich erwiesen. Solche Modelle funktionieren gut in einem überwachten Szenario, aber ihre Leistung kann unter Domänenverschiebungen, die für einen menschlichen Beobachter milde erscheinen, überraschend schlecht sein. Zum Beispiel kann das Training in einer Stadt und das Testen in einer anderen Stadt in einer anderen geografischen Region und/oder unter verschiedenen Wetterbedingungen aufgrund einer pixelbasierten Verteilungsverschiebung zu erheblich verminderten Leistungen führen. In dieser Arbeit stellen wir die erste domänenspezifische Methode zur semantischen Segmentierung vor, wobei wir einen unüberwachten adversären Ansatz für Pixelvorhersageprobleme vorschlagen. Unsere Methode umfasst sowohl globale als auch kategorien-spezifische Anpassungstechniken. Die globale Domänenanpassung wird durch ein neuartiges semantisches Segmentierungsnetzwerk mit vollkonvolutivem domänenspezifischem adversären Lernen durchgeführt. Dieser anfänglich angepasste Raum ermöglicht dann die kategorien-spezifische Anpassung durch eine Verallgemeinerung des eingeschränkten schwachen Lernens, wobei das räumliche Layout explizit von der Quell- zur Ziel-Domäne übertragen wird. Unser Ansatz übertrifft Baseline-Methoden in verschiedenen Szenarien auf mehreren großen Datensätzen, einschließlich der Anpassung zwischen verschiedenen realen Stadtmilieus, unterschiedlichen synthetischen Teilbereichen, vom simulierten zum realen Umfeld und auf einem neuen großen Dash-Cam-Datensatz (novel large-scale dash-cam dataset).