vor 8 Tagen

Lernung bereicherteter Merkmale für die Echtbild-Restaurierung und -Verbesserung

Syed Waqas Zamir, Aditya Arora, Salman Khan, Munawar Hayat, Fahad Shahbaz Khan, Ming-Hsuan Yang, Ling Shao

Abstract

Mit dem Ziel, hochwertigen Bildinhalt aus einer beeinträchtigten Version wiederherzustellen, genießt die Bildrekonstruktion zahlreiche Anwendungen in Bereichen wie Überwachungssysteme, computergestützte Fotografie, medizinische Bildgebung und Fernerkundung. In jüngster Zeit haben Faltungsneuronale Netze (CNNs) im Vergleich zu herkömmlichen Ansätzen erhebliche Fortschritte bei der Bildrekonstruktion erzielt. Bisherige CNN-basierte Methoden arbeiten typischerweise entweder auf vollauflösenden oder sukzessiv auf immer niedriger auflösenden Darstellungen. Bei der erstgenannten Herangehensweise werden räumlich präzise, jedoch kontextuell weniger robuste Ergebnisse erzielt, während bei der zweiten Methode semantisch zuverlässige, jedoch räumlich weniger genaue Ausgaben generiert werden. In diesem Artikel präsentieren wir eine neuartige Architektur, deren gemeinsames Ziel darin besteht, räumlich präzise, hochauflösende Darstellungen über das gesamte Netzwerk hinweg beizubehalten und gleichzeitig starke kontextuelle Informationen aus niedrigauflösenden Darstellungen zu erhalten. Der Kern unserer Methode ist ein mehrskaliger Residualblock, der mehrere Schlüsselelemente beinhaltet: (a) parallele, mehrskalige Faltungsströme zur Extraktion mehrskaliger Merkmale, (b) Informationsaustausch zwischen den mehrskaligen Strömen, (c) räumliche und kanalbasierte Aufmerksamkeitsmechanismen zur Erfassung kontextueller Informationen sowie (d) auf Aufmerksamkeit basierende Aggregation mehrskaliger Merkmale. Kurz gesagt lernt unsere Methode eine erweiterte Menge an Merkmalen, die kontextuelle Informationen aus mehreren Skalen kombiniert, während gleichzeitig hochauflösende räumliche Details bewahrt werden. Umfangreiche Experimente an fünf realen Benchmark-Datensätzen für Bilder zeigen, dass unsere Methode, MIRNet genannt, für eine Vielzahl von Bildverarbeitungsaufgaben – einschließlich Bildrauschunterdrückung, Super-Resolution und Bildverbesserung – Ergebnisse auf dem Stand der Technik erzielt. Der Quellcode und vortrainierte Modelle sind unter https://github.com/swz30/MIRNet verfügbar.