Verständnis dunkler Szenen durch Kontrastierung multimodaler Beobachtungen

Die Verarbeitung dunkler Szenen basierend auf multimodalen Bilddaten ist herausfordernd, da sowohl das sichtbare als auch das ergänzende Modality nur begrenzte semantische Informationen für die Aufgabe liefern. Bisherige Ansätze konzentrieren sich auf die Fusion der beiden Modalitäten, vernachlässigen jedoch die Korrelationen zwischen semantischen Klassen bei der Minimierung von Verlustfunktionen zur Ausrichtung von Pixeln mit Labels, was zu ungenauen Klassenvorhersagen führt. Um diese Probleme anzugehen, stellen wir einen überwachten multimodalen kontrastiven Lernansatz vor, der die semantische Unterscheidbarkeit der gelernten multimodalen Merkmalsräume erhöht, indem gleichzeitig überwachte Kreuzmodalkontrastierung und intra-modale Kontrastierung durchgeführt werden, basierend auf den Klassenzusammenhängen. Der Kreuzmodalkontrast fördert, dass Einbettungen derselben Klasse aus beiden Modalitäten näher zueinander liegen und Einbettungen unterschiedlicher Klassen voneinander getrennt werden. Die intra-modale Kontrastierung zwingt Einbettungen derselben oder unterschiedlicher Klassen innerhalb jeder Modality, entweder zusammenzurücken oder auseinanderzugehen. Wir validieren unseren Ansatz an einer Vielzahl von Aufgaben, die unterschiedliche Lichtbedingungen und Bildmodalitäten abdecken. Experimente zeigen, dass unser Ansatz effektiv die Verständnisfähigkeit dunkler Szenen auf Basis multimodaler Bilder mit geringer semantischer Dichte verbessert, indem semantisch unterscheidbare Merkmalsräume geformt werden. Vergleiche mit vorherigen Methoden belegen unsere state-of-the-art Leistung. Der Quellcode und vortrainierte Modelle sind unter https://github.com/palmdong/SMMCL verfügbar.