Ein Ensemble-Mehrskalen-Residual-Attention-Netzwerk (EMRA-Net) für die Bildentnebelung
Die Bildentnebelung zielt darauf ab, ein klares Bild aus einem nebligen Bild wiederherzustellen, ein seit langem herausforderndes Problem. In diesem Artikel stellen wir ein Ensemble Multi-Scale Residual Attention Network (EMRA-Net) vor, das direkt ein klares Bild generiert und aus zwei Komponenten besteht: einem dreiskaligen residualen Aufmerksamkeits-CNN (TRA-CNN) sowie einem Ensemble-Aufmerksamkeits-CNN (EA-CNN). Im TRA-CNN nutzen wir die Wavelet-Transformation, um abgetastete Bilder zu erzeugen, anstelle üblicher räumlicher Abtastmethoden wie Nachbarschaftsabtastung oder Strided-Convolution. Durch die Wavelet-Transformation können wir den Verlust von Bildtexturdetails vermeiden. Zudem werden in jeder Skalen-Verzweigung Res2Net-Module in Serie geschaltet, um die hierarchischen Merkmale aus den ursprünglichen nebligen Bildern optimal auszunutzen, und es wird ein Kanal-Aufmerksamkeitsmechanismus eingeführt, um Informationen in der Kanaldimension zu fokussieren. Abschließend wird ein EA-CNN vorgeschlagen, um die aus dem TRA-CNN generierten groben Bilder zu einem verfeinerten klaren Bild zu fusionieren. Umfangreiche Experimente an etablierten synthetischen Nebligkeits-Datensätzen sowie an einem realen Nebligkeits-Datensatz belegen, dass das vorgeschlagene EMRA-Net sowohl in subjektiver visueller Wahrnehmung als auch in objektiven Qualitätsbewertungsmaßen der Bildqualität gegenüber vorherigen State-of-the-Art-Methoden überlegen ist.