vor 17 Tagen

Effiziente frequenzdomänenbasierte Transformers für hochwertige Bildentschärfung

Lingshun Kong, Jiangxin Dong, Mingqiang Li, Jianjun Ge, Jinshan Pan

Abstract

Wir präsentieren eine effektive und effiziente Methode, die die Eigenschaften von Transformers im Frequenzbereich für die hochwertige Bildentschärfung ausnutzt. Unsere Herangehensweise wird durch den Faltungssatz motiviert, der besagt, dass die Korrelation oder Faltung zweier Signale im Raumgebiet einer elementweisen Multiplikation dieser Signale im Frequenzbereich entspricht. Dies inspiriert uns, einen effizienten, auf dem Frequenzbereich basierenden Selbst-Attention-Löser (FSAS) zu entwickeln, der die skalierte Dot-Product-Attention durch eine elementweise Multiplikation anstelle der Matrixmultiplikation im Raumgebiet schätzt. Zudem stellen wir fest, dass die einfache Verwendung eines herkömmlichen Feed-Forward-Netzwerks (FFN) in Transformers keine zufriedenstellenden Entschärfungsergebnisse liefert. Um dieses Problem zu überwinden, schlagen wir ein einfaches, aber wirksames diskriminatives, auf dem Frequenzbereich basierendes FFN (DFFN) vor, bei dem ein Gating-Mechanismus im FFN auf Basis des Joint Photographic Experts Group (JPEG)-Kompressionsalgorithmus eingeführt wird, um gezielt zu bestimmen, welche Nieder- und Hochfrequenzinformationen der Merkmale für die Wiederherstellung des latenten klaren Bildes beibehalten werden sollen. Wir integrieren das vorgeschlagene FSAS und DFFN in ein asymmetrisches Netzwerk auf Basis einer Encoder-Decoder-Architektur, wobei das FSAS ausschließlich im Decoder-Modul zur besseren Bildentschärfung eingesetzt wird. Experimentelle Ergebnisse zeigen, dass die vorgeschlagene Methode gegenüber den aktuellen State-of-the-Art-Ansätzen überzeugt. Der Quellcode wird unter \url{https://github.com/kkkls/FFTformer} verfügbar sein.