Komplementäres Merkmalsverstärktes Netzwerk mit Vision Transformer für die Bildentnebelung

Konventionelle auf CNNs basierende Entnebelungsmodelle leiden unter zwei wesentlichen Problemen: dem Entnebelungsframework (begrenzte Interpretierbarkeit) und den Faltungsoperationen (inhaltunabhängig und ineffektiv bei der Erfassung langreichweiter Abhängigkeiten). In dieser Arbeit schlagen wir zunächst einen neuen ergänzenden Merkmalsverstärkungs-Framework vor, bei dem die ergänzenden Merkmale durch mehrere ergänzende Teilprobleme gelernt werden und gemeinsam zur Verbesserung der Leistungsaufgabe beitragen. Ein wesentlicher Vorteil dieses neuen Frameworks besteht darin, dass gezielt ausgewählte ergänzende Aufgaben auf die Lernung schwach abhängiger ergänzender Merkmale fokussieren, wodurch sich wiederholendes und ineffektives Lernen der Netzwerke vermeidet. Auf Basis dieses Frameworks entwerfen wir ein neues Entnebelungsnetzwerk. Insbesondere wählen wir die intrinsische Bildzerlegung als ergänzende Aufgaben aus, wobei die Teilprobleme der Reflexions- und Schattierungsvorhersage zur Extraktion von farb- und texturbezogenen ergänzenden Merkmalen genutzt werden. Um diese ergänzenden Merkmale effektiv zu aggregieren, schlagen wir ein neues Modul zur Auswahl ergänzender Merkmale (Complementary Features Selection Module, CFSM) vor, das die nützlicheren Merkmale für die Entnebelung auswählt. Darüber hinaus führen wir eine neue Version des Vision-Transformer-Blocks ein, den Hybrid Local-Global Vision Transformer (HyLoG-ViT), und integrieren ihn in unser Entnebelungsnetzwerk. Der HyLoG-ViT-Block besteht aus zwei Pfaden – einem lokalen und einem globalen Vision-Transformer –, die jeweils lokale und globale Abhängigkeiten erfassen. Dadurch wird die Lokalität in den Netzwerken eingeführt und sowohl globale als auch langreichweite Abhängigkeiten effektiv erfasst. Umfangreiche Experimente an homogenen, nicht-homogenen und Nachtdaten zeigen, dass das vorgeschlagene Entnebelungsnetzwerk eine vergleichbare oder sogar bessere Leistung als auf CNNs basierende Entnebelungsmodelle erzielt.