Kreuzmodale Lernverfahren für Domänenanpassung in der 3D-Semantischen Segmentierung

Domain Adaptation ist eine wichtige Aufgabe, um Lernprozesse auch bei knappen Labels zu ermöglichen. Während die meisten bestehenden Arbeiten sich ausschließlich auf das Bildmodus-Modality konzentrieren, existieren zahlreiche bedeutende multimodale Datensätze. Um die multimodale Information für die Domain Adaptation nutzbar zu machen, schlagen wir ein cross-modal Learning vor, bei dem wir die Konsistenz der Vorhersagen zweier Modalitäten durch gegenseitiges Nachahmen (mutual mimicking) erzwingen. Unser Netzwerk wird dabei so eingeschränkt, dass es korrekte Vorhersagen auf gelabelten Daten erzielt und gleichzeitig konsistente Vorhersagen über die Modalitäten hinweg auf ungelabelten Daten der Ziel-Domain liefert. Experimente in unsupervised und semi-supervised Domain Adaptation-Szenarien belegen die Wirksamkeit dieser neuen Strategie. Insbesondere evaluieren wir die Aufgabe der 3D-Semantiksegmentierung anhand entweder von 2D-Bildern, 3D-Punktwolken oder beider Modalitäten gemeinsam. Wir nutzen neuere Fahrzeugdatensätze, um eine breite Vielfalt an Domain-Adaptation-Szenarien zu generieren – darunter Veränderungen in der Szenenstruktur, Beleuchtung, Sensoranordnung und Wetterbedingungen sowie den synthetisch-zu-realem Setup. Unser Ansatz übertrifft signifikant die vorherigen uni-modalen Adaptationsbaselines in allen betrachteten Szenarien. Der Quellcode ist öffentlich unter https://github.com/valeoai/xmuda_journal verfügbar.