CascadedGaze: Effizienz bei der Extraktion globaler Kontextinformationen für die Bildrestaurierung

Bildrestaurierungsaufgaben basieren traditionell auf Faltungsneuralen Netzen. Aufgrund der lokal begrenzten Natur des Faltungsoperators haben diese jedoch Schwierigkeiten, globale Informationen zu erfassen. Die Versprechen von Aufmerksamkeitsmechanismen in Transformers liegen darin, dieses Problem zu umgehen, erfordern jedoch einen erheblichen Rechenaufwand. In jüngster Zeit haben zahlreiche Studien zur Bildrestaurierung sich darauf konzentriert, die Herausforderung einer Balance zwischen Leistungsfähigkeit und Rechenkosten durch Varianten von Transformers zu lösen. In diesem Paper stellen wir den CascadedGaze-Netzwerk (CGNet) vor, eine Encoder-Decoder-Architektur, die einen neuen und effizienten Ansatz zur Erfassung globaler Informationen für die Bildrestaurierung nutzt: den Global Context Extractor (GCE). Der GCE-Modul nutzt kleine Kerne über Faltungsschichten, um globale Abhängigkeiten zu lernen, ohne auf Selbst-Aufmerksamkeit angewiesen zu sein. Ausführliche experimentelle Ergebnisse zeigen, dass unsere recheneffiziente Methode auf synthetischen Bildrauschunterdrückungs- und Einzelbild-Verwischungsaufgaben mit einer Reihe state-of-the-art-Methoden konkurrieren kann und zudem die Leistungsgrenze bei der echten Bildrauschunterdrückung weiter ausdehnt.