Selbstüberwachte Modellanpassung für multimodale semantische Segmentierung

Das zuverlässige Wahrnehmen und Verstehen von Szenen ist eine wesentliche Voraussetzung für Roboter, um in der realen Welt zu operieren. Dieses Problem ist aufgrund der Vielzahl von Objekttypen sowie Änderungen des Erscheinungsbilds, die durch unterschiedliche Beleuchtungs- und Wetterbedingungen verursacht werden, inhärent schwierig. Die Nutzung komplementärer Modalitäten kann das Lernen semantisch reichhaltigerer Darstellungen ermöglichen, die widerstandsfähig gegen solche Störungen sind. Trotz des enormen Fortschritts in den letzten Jahren fügen die meisten multimodalen Ansätze mit konventionellen Faltungsneuronalen Netzen (CNN) Merkmalskarten aus einzelnen Modalitätsströmen direkt zusammen, wodurch das Modell nicht in der Lage ist, sich nur auf relevante komplementäre Informationen bei der Fusion zu konzentrieren. Um diese Einschränkung zu überwinden, schlagen wir einen multimodalen semantischen Segmentierungsrahmen vor, der die Fusion modalspezifischer Merkmale dynamisch anpasst und dabei empfindlich gegenüber der Objektkategorie, dem räumlichen Standort und dem Szenenkontext im selbstüberwachten Modus arbeitet. Insbesondere schlagen wir eine Architektur vor, die aus zwei modalspezifischen Encoder-Strömen besteht, die mittels unseres vorgeschlagenen selbstüberwachten Modellanpassungs-Fusionsmechanismus (self-supervised model adaptation fusion mechanism) die Zwischenrepräsentationen der Encoders in einen einzelnen Decoder fusionieren. Da Zwischenrepräsentationen über Modalitäten hinweg nicht ausgerichtet sind, führen wir ein Aufmerksamkeitschema ein, um eine bessere Korrelation zu erreichen. Zudem schlagen wir eine rechnerisch effiziente unimodale Segmentierungsarchitektur vor, bezeichnet als AdapNet++, die einen neuen Encoder mit Multiskalen-Residual-Einheiten und eine effiziente dilatierte räumliche Pyramidenaufteilung (atrous spatial pyramid pooling) integriert, welche ein größeres effektives Rezeptivfeld mit mehr als 10-mal weniger Parametern bietet. Diese Architektur wird durch einen starken Decoder ergänzt, der ein Mehrfachauflösungs-Überwachungsschema (multi-resolution supervision scheme) nutzt, um hochaufgelöste Details wiederherzustellen. Ausführliche empirische Evaluierungen an mehreren Benchmarks zeigen, dass sowohl unsere unimodale als auch unsere multimodale Architektur den aktuellen Stand der Technik übertreffen.请注意,上述翻译中的一些专业术语在括号内标注了原文,以确保信息的完整性。例如 "self-supervised model adaptation fusion mechanism" 和 "atrous spatial pyramid pooling" 等。