Variationales probabilistisches Fusionsnetzwerk für RGB-T-Semantische Segmentierung

Die semantische Segmentierung von RGB-T-Bildern wird zunehmend eingesetzt, um schwierige Szenen bei schlechten Beleuchtungsbedingungen durch die Fusion verschiedener Modalitätsmerkmale von RGB- und Thermobildern zu bearbeiten. Bestehende Methoden versuchen, ein optimales Fusionsmerkmal für die Segmentierung zu finden, was jedoch in der Sensibilität gegenüber Modalitätsrauschen, Klassenungleichgewicht und Modalitätsverzerrung resultiert. Um diese Probleme zu überwinden, schlägt dieser Artikel ein neuartiges variationsbasiertes probabilistisches Fusionsnetzwerk (Variational Probabilistic Fusion Network, VPFNet) vor. Dieses betrachtet Fusionsmerkmale als Zufallsvariablen und erreicht eine robuste Segmentierung durch das Durchschnittsbilden der Segmentierungsergebnisse unter mehreren Stichproben von Fusionsmerkmalen. Die Erzeugung zufälliger Stichproben von Fusionsmerkmalen im VPFNet wird durch ein neuartiges variationsbasiertes Merkmalsfusionsmodul (Variational Feature Fusion Module, VFFM) realisiert, das auf variationsbasierter Aufmerksamkeit basiert. Um Klassenungleichgewicht und Modalitätsverzerrung weiterhin zu vermeiden, verwenden wir den gewichteten Kreuzentropieverlust und führen Vorinformationen zur Beleuchtung und Kategorie ein, um das vorgeschlagene VFFM zu steuern. Experimentelle Ergebnisse auf den Datensätzen MFNet und PST900 zeigen, dass das vorgeschlagene VPFNet eine Spitzenleistung in der Segmentierung erzielen kann.