Prompt-basierte, zutatenorientierte, all-in-one Bildrestauration

Bildrestauration zielt darauf ab, hochwertige Bilder aus ihren verschlechterten Beobachtungen wiederherzustellen. Da die meisten existierenden Methoden sich auf die Entfernung einzelner Verschlechterungen konzentriert haben, erzielen sie möglicherweise nicht optimale Ergebnisse bei anderen Arten von Verschlechterungen, die den Anwendungen in realen Szenarien nicht gerecht werden. In diesem Artikel schlagen wir einen neuen datenorientierten Ansatz vor, der auf promptbasiertes Lernen setzt, um ein einzelnes Modell effizient mehrere Bildverschlechterungsaufgaben bewältigen zu lassen. Insbesondere verwenden wir einen Encoder, um Merkmale zu erfassen, und führen Prompts mit verschiebungsspezifischen Informationen ein, um den Decoder bei der anpassungsfähigen Wiederherstellung von Bildern, die durch verschiedene Verschlechterungen betroffen sind, zu leiten. Um lokale invariante Eigenschaften und nicht-lokale Informationen für eine hochwertige Bildrestauration zu modellieren, kombinierten wir CNN-Operationen und Transformer. Gleichzeitig führten wir mehrere wichtige Designentscheidungen in den Transformer-Blöcken (mehrköpfige umgeordnete Aufmerksamkeit mit Prompts und einfache Gate-Feedforward-Netze) ein, um die Rechenanforderungen zu reduzieren und selektiv festzulegen, welche Informationen beibehalten werden sollten, um eine effiziente Wiederherstellung potentiell scharfer Bilder zu erleichtern. Darüber hinaus integrieren wir einen Merkmalsfusionmechanismus, der die multiskalige Information weiter erkundet, um die aggregierten Merkmale zu verbessern. Die resultierende eng verflochtene hierarchische Architektur wird als CAPTNet bezeichnet. Ausführliche Experimente zeigen, dass unsere Methode wettbewerbsfähig mit dem Stand der Technik ist.