HyperAIHyperAI
vor 7 Tagen

Vision Transformers für die Entnebelung einzelner Bilder

Yuda Song, Zhuqing He, Hui Qian, Xin Du
Vision Transformers für die Entnebelung einzelner Bilder
Abstract

Die Bildentnebelung ist eine typische Aufgabe der niedrigen Ebene in der Bildverarbeitung, bei der aus nebligen Bildern die zugrundeliegenden klareren Bilder geschätzt werden. In den letzten Jahren haben Methoden basierend auf Faltungsneuronalen Netzen die Bildentnebelung dominiert. Allerdings hat der Vision Transformer, der kürzlich bei hochleveligen Bildverarbeitungsaufgaben bedeutende Fortschritte erzielt hat, bisher keine neuen Perspektiven für die Bildentnebelung eröffnet. Ausgehend von dem populären Swin Transformer stellen wir fest, dass mehrere zentrale Entwurfsentscheidungen dieses Architekturen für die Bildentnebelung ungeeignet sind. Um dies zu beheben, schlagen wir DehazeFormer vor, eine Architektur, die verschiedene Verbesserungen umfasst, darunter eine modifizierte Normalisierungsschicht, eine angepasste Aktivierungsfunktion sowie ein optimiertes Verfahren zur Aggregation räumlicher Informationen. Wir trainieren mehrere Varianten von DehazeFormer auf verschiedenen Datensätzen, um deren Wirksamkeit zu demonstrieren. Insbesondere erreicht unser kleines Modell auf dem am häufigsten verwendeten SOTS-Indoor-Datensatz FFA-Net bei nur 25 % der Anzahl an Parametern und 5 % des Rechenaufwands überlegen. Sofern wir uns nicht irren, ist unser großes Modell die erste Methode, die auf dem SOTS-Indoor-Datensatz eine PSNR von über 40 dB erreicht und damit die bisherigen State-of-the-Art-Methoden deutlich übertrifft. Zudem haben wir einen großskaligen, realistischen Datensatz für Fernerkundungsbilder mit starker, nicht-homogener Beeinträchtigung durch Nebel zusammengestellt, um die Fähigkeit des Verfahrens zur Beseitigung komplexer Nebelstrukturen zu evaluieren.

Vision Transformers für die Entnebelung einzelner Bilder | Neueste Forschungsarbeiten | HyperAI