HyperAIHyperAI
vor 17 Tagen

Neuüberprüfung der Bildunschärfung mit einem effizienten ConvNet

Lingyan Ruan, Mojtaba Bemana, Hans-peter Seidel, Karol Myszkowski, Bin Chen
Neuüberprüfung der Bildunschärfung mit einem effizienten ConvNet
Abstract

Die Bildunschärfung zielt darauf ab, das latente scharfe Bild aus seiner verschwommenen Entsprechung wiederherzustellen und besitzt eine Vielzahl von Anwendungen im Bereich des Computer Vision. Convolutional Neural Networks (CNNs) haben sich in diesem Bereich bereits seit vielen Jahren bewährt, doch in jüngster Zeit hat eine alternative Netzarchitektur, nämlich der Transformer, noch überlegene Leistung gezeigt. Die Überlegenheit des Transformers lässt sich auf die Multi-Head Self-Attention (MHSA)-Mechanismen zurückführen, die gegenüber CNNs ein größeres effektives Empfangsfeld (Effective Receptive Field, ERF) und eine bessere Anpassungsfähigkeit an die Eingabedaten bieten. Allerdings erfordert die MHSA aufgrund der quadratisch mit der Eingabegröße wachsenden Rechenkosten eine hohe Rechenleistung, was sie für Aufgaben der hochauflösenden Bildunschärfung praktisch unbrauchbar macht. In dieser Arbeit präsentieren wir ein einheitliches, leichtgewichtiges CNN-Netzwerk, das ein großes effektives Empfangsfeld aufweist und gleichzeitig eine vergleichbare oder sogar bessere Leistung als Transformer erzielt, jedoch deutlich geringere Rechenkosten verursacht. Unser zentrales Design ist ein effizienter CNN-Block namens LaKD, der eine große Kernel-Tiefen-Convolution sowie eine Struktur zur Mischung von Raum und Kanal integriert und ein vergleichbares oder sogar größeres ERF als Transformer erreicht, jedoch mit einer deutlich geringeren Parameteranzahl. Insbesondere erreichen wir auf den Benchmark-Datensätzen für Fokus- und Bewegungsunschärfung +0,17 dB bzw. +0,43 dB PSNR gegenüber dem Stand der Technik (Restormer), wobei wir 32 % weniger Parameter und 39 % weniger MACs (Multiply-Accumulate Operations) benötigen. Umfangreiche Experimente belegen die herausragende Leistung unseres Netzwerks sowie die Wirksamkeit jedes einzelnen Moduls. Darüber hinaus schlagen wir eine kompakte und intuitive Metrik namens ERFMeter vor, die das ERF quantitativ charakterisiert und eine hohe Korrelation zur Netzwerkleistung zeigt. Wir hoffen, dass diese Arbeit die Forschungsgemeinschaft anregt, die Vor- und Nachteile von CNN- und Transformer-Architekturen auch jenseits der Bildunschärfung weiter zu erforschen.