HyperAIHyperAI
vor 17 Tagen

DeblurDiNAT: Ein kompaktes Modell mit herausragender Generalisierbarkeit und visueller Treue auf unbekannten Domänen

Hanzhou Liu, Binghan Li, Chengkai Liu, Mi Lu
DeblurDiNAT: Ein kompaktes Modell mit herausragender Generalisierbarkeit und visueller Treue auf unbekannten Domänen
Abstract

Neuere Deblurring-Netzwerke haben effektiv klare Bilder aus verschwommenen wiederhergestellt. Dennoch leiden sie oft unter einer schlechten Generalisierbarkeit auf unbekannte Domänen. Zudem fokussieren diese Modelle typischerweise auf Verzerrungsmetriken wie PSNR und SSIM, wobei kritische Aspekte, die mit der menschlichen Wahrnehmung korrelieren, vernachlässigt werden. Um diese Einschränkungen zu überwinden, stellen wir DeblurDiNAT vor – ein Deblurring-Transformer basierend auf Dilated Neighborhood Attention. Zunächst nutzt DeblurDiNAT ein alternierendes Dilatationsfaktor-Paradigma, um sowohl lokale als auch globale verschwommene Muster zu erfassen, wodurch sowohl die Generalisierbarkeit als auch die perceptuelle Klarheit verbessert werden. Zweitens unterstützt ein lokaler cross-channel Learner den Transformer-Block dabei, kurzfristige Beziehungen zwischen benachbarten Kanälen zu erfassen. Darüber hinaus präsentieren wir ein lineares Feed-Forward-Netzwerk mit einer einfachen, jedoch wirksamen Architektur. Schließlich wird ein zweistufiges Feature-Fusion-Modul eingeführt, das als Alternative zum bisherigen Ansatz fungiert und die effiziente Verarbeitung von Multiskalen-Visualinformationen über verschiedene Netzwerkebenen hinweg ermöglicht. Im Vergleich zu aktuellen State-of-the-Art-Modellen zeigt unser kompakter DeblurDiNAT überlegene Generalisierungsfähigkeiten und erzielt hervorragende Ergebnisse in perceptuellen Metriken, während gleichzeitig eine günstige Modellgröße beibehalten wird.