Multimodale Materialsegmentierung

Die Erkennung von Materialien anhand ihres visuellen Erscheinungsbilds ist für Aufgaben im Bereich des Computer Vision entscheidend, insbesondere solche, die eine Interaktion mit der realen Welt erfordern. Die Materialsegmentierung – also die dichte, pixelgenaue Erkennung von Materialien – bleibt herausfordernd, da Materialien im Gegensatz zu Objekten in ihren herkömmlichen RGB-Aufnahmen keine eindeutig erkennbaren visuellen Signaturen aufweisen. Unterschiedliche Materialien verhalten sich jedoch unterschiedlich hinsichtlich ihrer radiometrischen Eigenschaften, die häufig mit nicht-RGB-Bildmodality-Verfahren erfasst werden können. Wir realisieren eine multimodale Materialsegmentierung basierend auf RGB-, Polarisations- und Nahinfrarot-Bildern. Wir stellen die MCubeS-Datenbank (MultiModal Material Segmentation) vor, die 500 Bildsets mit multimodalen Aufnahmen von 42 Straßenzenen enthält. Für jedes Bild und jedes Pixel wurden sowohl die ground truth-Materialsegmentierung als auch die semantische Segmentierung annotiert. Außerdem leiten wir ein neuartiges tiefes neuronales Netzwerk, MCubeSNet, ab, das lernt, sich auf die informativsten Kombinationen von Bildmodality für jede Materialklasse zu konzentrieren, mithilfe einer neu entwickelten Region-guided Filter Selection (RGFS)-Schicht. Wir nutzen die semantische Segmentierung als Vorwissen, um diesen Filterauswahlprozess zu „leiten“. Sofern uns bekannt ist, stellt unsere Arbeit die erste umfassende Studie zur wirklich multimodalen Materialsegmentierung dar. Wir sind überzeugt, dass unsere Arbeit neue Wege für die praktische Nutzung von Materialinformationen in sicherheitskritischen Anwendungen eröffnet.