DehazeDCT: Hin zu einer effektiven nicht-homogenen Entnebelung durch deformierbare convolutionale Transformer

Bildentnebelung, eine zentrale Aufgabe im Bereich der niedrigen-Level-Vision, zielt darauf ab, die Sichtbarkeit und Detailgenauigkeit aus nebligen Bildern wiederherzustellen. Viele tiefe Lernmethoden mit starker Repräsentationslernfähigkeit zeigen beeindruckende Leistung bei der Entnebelung nicht-homogener Szenen; dennoch leiden diese Ansätze häufig unter hohen Rechenanforderungen und sind daher oft ungeeignet für die Verarbeitung hochauflösender Bilder (z. B. 4000 × 6000). Um diese Herausforderungen zu bewältigen, stellen wir einen innovativen Ansatz zur nicht-homogenen Bildentnebelung vor, basierend auf einer deformierbaren convolutionalen Transformer-artigen Architektur (DehazeDCT). Konkret entwerfen wir zunächst ein Transformer-ähnliches Netzwerk, das auf deformierbaren Konvolutionen der Version 4 basiert und über Fähigkeiten zur Modellierung langfristiger Abhängigkeiten sowie adaptiver räumlicher Aggregation verfügt. Dieses Netzwerk zeichnet sich durch eine schnellere Konvergenz und höhere Vorwärtsdurchlaufgeschwindigkeit aus. Darüber hinaus nutzen wir einen leichtgewichtigen, an der Retinex-Theorie orientierten Transformer, um Farbkorrektur und Strukturverfeinerung zu erreichen. Umfangreiche Experimente und die herausragende Leistung unserer Methode im NTIRE 2024 Dense and Non-Homogeneous Dehazing Challenge – bei dem sie unter insgesamt 16 Einreichungen den zweiten Platz belegte – belegen die überlegene Effektivität unseres vorgeschlagenen Ansatzes. Der Quellcode ist verfügbar unter: https://github.com/movingforward100/Dehazing_R.