WaveNet: wellenbewusste Bildverbesserung

Als eine Aufgabe der niedrigstufigen Bildverarbeitung wird Bildverbesserung in zahlreichen Anwendungen des Computer Vision eingesetzt. In jüngster Zeit haben mehrere Methoden, die CNNs, MLPs, Transformer und die Fourier-Transformation kombinieren, vielversprechende Ergebnisse bei der Bildverbesserung erzielt. Allerdings gelingt es diesen Ansätzen nicht, ein ausgewogenes Verhältnis zwischen Genauigkeit und Rechenkosten zu erreichen. In diesem Artikel formulieren wir die Bildverbesserung als ein Problem der Signalmodulation und stellen die WaveNet-Architektur vor, die sich in verschiedenen Parametern gut verhält und die Merkmalsexpression durch eine wellenartige Merkmalsdarstellung verbessert. Insbesondere schlagen wir vor, einen Pixel als Abtastwert einer Signal-Funktion mit drei Wellenfunktionen (Cosinuswelle (CW), Sinuswelle (SW) und Gating-Welle (GW)) zu repräsentieren, wobei wir uns dabei an der Fourier-Transformation orientieren. Zur Generierung wellenartiger Merkmale sind Amplitude und Phase erforderlich. Der Amplitudenterm enthält die ursprünglichen Merkmale, während der Phasenterm die Beziehung zwischen verschiedenen Eingaben und festen Gewichten moduliert. Um die Phase und die Amplitude dynamisch zu ermitteln, entwickeln wir den Wave Transform Block (WTB), der adaptiv Wellen erzeugt und den Modulationsmodus der Wellenüberlagerung steuert. Auf Basis des WTB stellen wir eine effektive Architektur namens WaveNet für die Bildverbesserung vor. Umfangreiche Experimente an sechs realen Datensätzen zeigen, dass unser Modell sowohl quantitativ als auch qualitativ gegenüber aktuellen State-of-the-Art-Methoden überlegen ist. Der Quellcode und das vortrainierte Modell sind unter https://github.com/DeniJsonC/WaveNet verfügbar.